RU2783150C1 - Dynamic processing in devices with different playback functionalities - Google Patents
Dynamic processing in devices with different playback functionalities Download PDFInfo
- Publication number
- RU2783150C1 RU2783150C1 RU2022101775A RU2022101775A RU2783150C1 RU 2783150 C1 RU2783150 C1 RU 2783150C1 RU 2022101775 A RU2022101775 A RU 2022101775A RU 2022101775 A RU2022101775 A RU 2022101775A RU 2783150 C1 RU2783150 C1 RU 2783150C1
- Authority
- RU
- Russia
- Prior art keywords
- speaker
- speakers
- data
- spatial
- processing
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 240
- 230000005236 sound signal Effects 0.000 claims abstract description 72
- 238000012935 Averaging Methods 0.000 claims abstract description 20
- 238000003672 processing method Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 126
- 238000009877 rendering Methods 0.000 claims description 122
- 230000004913 activation Effects 0.000 claims description 76
- 230000006835 compression Effects 0.000 claims description 31
- 238000007906 compression Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 24
- 230000002085 persistent effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 238000001994 activation Methods 0.000 description 74
- 230000006870 function Effects 0.000 description 49
- 230000004044 response Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 230000015556 catabolic process Effects 0.000 description 9
- 238000006731 degradation reaction Methods 0.000 description 9
- 238000004091 panning Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 210000003127 knee Anatomy 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006735 deficit Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010411 cooking Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011900 installation process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Abstract
Description
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS
Данная заявка заявляет приоритет по заявке на патент Испании №P201930702, поданной 30 июля 2019 г., предварительной заявке на патент США № 62/971421, поданной 7 февраля 2020 г., предварительной заявке на патент США № 62/705410, поданной 25 июня 2020 г., предварительной заявке на патент США № 62/880115, поданной 30 июля 2019 г., и предварительной заявке на патент США № 62/705143, поданной 12 июня 2020 г., каждая из которых полностью включена в данный документ посредством ссылки.This application claims priority over Spanish Patent Application No. P201930702 filed July 30, 2019, US Provisional Application No. 62/971421 filed February 7, 2020, US Provisional Application No. 62/705410 filed June 25, 2020 U.S. Provisional Application No. 62/880115, filed July 30, 2019, and U.S. Provisional Application No. 62/705143, filed June 12, 2020, each of which is hereby incorporated by reference in its entirety.
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
Настоящее изобретение относится к системам и способам воспроизведения, и рендеринга для воспроизведения, аудиоданных с помощью некоторых или всех динамиков набора динамиков.The present invention relates to systems and methods for reproducing, and rendering for playback, audio data using some or all of the speakers in a set of speakers.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
Звуковые устройства, включающие, но без ограничения, интеллектуальные звуковые устройства, широко распространены и становятся распространенными особенностями многих домов. Хотя существующие системы и способы для управления звуковыми устройствами обеспечивают преимущества, были бы целесообразными усовершенствованные системы и способы.Audio devices, including but not limited to smart audio devices, are widespread and are becoming common features in many homes. While existing systems and methods for controlling audio devices provide advantages, improved systems and methods would be desirable.
УСЛОВНЫЕ ОБОЗНАЧЕНИЯ И ТЕРМИНОЛОГИЯSYMBOLS AND TERMINOLOGY
По всему данному описанию, включая формулу изобретения, термины «динамик» и «громкоговоритель» используются как синонимы для обозначения любого издающего звук преобразователя (или набора преобразователей), приводимого в действие одним сигналом, подаваемым на динамик. Обычный набор наушников содержит два динамика. Throughout this specification, including the claims, the terms "speaker" and "loudspeaker" are used interchangeably to refer to any sound-producing transducer (or set of transducers) driven by a single signal applied to a speaker. A typical set of headphones contains two speakers.
По всему данному описанию, включая формулу изобретения, выражение выполнения операции «над» сигналом или данными (например, фильтрация, масштабирование, преобразование или применение коэффициента усиления к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно над сигналом или данными или над обработанной версией сигнала или данных (например, над версией сигнала, который был подвергнут предварительной фильтрации или предварительной обработке перед выполнением над ним указанной операции). Throughout this specification, including the claims, the expression performing an operation "on" a signal or data (e.g., filtering, scaling, transforming, or applying a gain to a signal or data) is used broadly to mean performing an operation directly on the signal or data, or on processed version of the signal or data (for example, on the version of the signal that was subjected to pre-filtering or pre-processing before performing a specified operation on it).
По всему данному описанию, включая формулу изобретения, выражение «система» используется в широком смысле для обозначения устройства, системы или подсистемы. Например, подсистема, которая реализует декодер, может называться системой декодера, и система, содержащая такую подсистему (например, система, которая генерирует Х выходных сигналов в ответ на ряд входных сигналов, в которой подсистема генерирует М входных сигналов, а остальные Х−М входных сигналов принимаются из внешнего источника), также может называться системой декодера.Throughout this specification, including the claims, the term "system" is used in a broad sense to refer to a device, system, or subsystem. For example, a subsystem that implements a decoder may be called a decoder system, and a system containing such a subsystem (e.g., a system that generates X outputs in response to a number of inputs, in which the subsystem generates M inputs and the remaining X−M inputs signals are received from an external source), may also be referred to as a decoder system.
По всему данному описанию, включая формулу изобретения, термин «процессор» используется в широком смысле для обозначения системы или устройства, запрограммированного или иным образом выполненного (например, с использованием программного обеспечения или программно-аппаратного обеспечения) с возможностью выполнения операций в отношении данных (например, аудио или видео или других данных изображений). Примеры процессоров включают программируемую пользователем вентильную матрицу (или другую настраиваемую интегральную схему или набор микросхем), процессор цифровой обработки сигналов, запрограммированный и/или иным образом выполненный с возможностью выполнения конвейерной обработки в отношении аудио или других звуковых данных, программируемый процессор общего назначения или компьютер и программируемую микропроцессорную интегральную схему или набор микросхем. Throughout this specification, including the claims, the term "processor" is used broadly to refer to a system or device programmed or otherwise made (for example, using software or firmware) capable of performing operations on data (for example, , audio or video or other image data). Example processors include a field programmable gate array (or other configurable integrated circuit or chipset), a digital signal processor programmed and/or otherwise configured to perform pipelining on audio or other audio data, a general purpose programmable processor, or a computer, and programmable microprocessor integrated circuit or chipset.
По всему данному описанию, включая формулу изобретения, термин «соединяет» или «соединенный» используется для обозначения либо непосредственного, либо косвенного соединения. Таким образом, если первое устройство соединено со вторым устройством, данное соединение может быть осуществлено через непосредственное соединение или через опосредованное соединения посредством других устройств или соединений.Throughout this specification, including the claims, the term "connects" or "connected" is used to mean either direct or indirect connection. Thus, if a first device is connected to a second device, the connection may be through a direct connection or through an indirect connection through other devices or connections.
В контексте данного документа выражение «интеллектуальное звуковое устройство» используется для обозначения интеллектуального устройства, представляющего собой или звуковое устройство специального назначения, или виртуального цифрового помощника (например, подключенный виртуальный цифровой помощник). Звуковое устройство специального назначения представляет собой устройство (например, телевизор или мобильный телефон), содержащее или соединенное с по меньшей мере одним микрофоном (а также, необязательно, содержащее или соединенное с по меньшей мере одним динамиком и/или по меньшей мере одной камерой), и/или по меньшей мере одним динамиком (также, необязательно, содержащим или соединенным с по меньшей мере одним микрофоном), и выполненное в значительной степени или в первую очередь для достижения одной цели. Хотя телевизор обычно может воспроизводить (или рассматривается как способный воспроизводить) звук из материала программы, в большинстве случаев современный телевизор запускает какую-либо операционную систему, в которой локально запускаются приложения, в том числе приложение для просмотра телевизионных передач. Аналогично, входные и выходные звуковые данные в мобильном телефоне могут осуществлять многое, но они обслуживаются приложениями, запущенными на телефоне. В этом смысле звуковое устройство специального назначения, содержащее динамик (динамики) и микрофон (микрофоны), часто выполнено с возможностью запуска локального приложения и/или службы для непосредственного использования динамика (динамиков) и микрофона (микрофонов). Некоторые звуковые устройства специального назначения могут быть выполнены с возможностью группировки друг с другом с целью выполнения воспроизведения аудиоданных в некоторой зоне или настраиваемой пользователем области.In the context of this document, the term "smart audio device" is used to refer to an intelligent device that is either a dedicated audio device or a virtual digital assistant (eg, a connected virtual digital assistant). A special purpose audio device is a device (for example, a television or mobile phone) containing or connected to at least one microphone (and optionally containing or connected to at least one speaker and/or at least one camera), and/or at least one speaker (also optionally containing or connected to at least one microphone), and performed largely or primarily to achieve one purpose. While a TV can usually play (or be considered capable of playing) audio from program material, in most cases a modern TV will run some kind of operating system that runs applications locally, including an application for watching TV. Likewise, audio input and output on a mobile phone can do a lot, but it is serviced by applications running on the phone. In this sense, a special purpose audio device comprising speaker(s) and microphone(s) is often configured to run a local application and/or service to directly use the speaker(s) and microphone(s). Some special purpose audio devices may be configured to group with each other in order to perform playback of audio data in a certain zone or user configurable area.
Виртуальный цифровой помощник (например, подключенный виртуальный цифровой помощник) представляет собой устройство (например, интеллектуальный динамик или встроенное устройство голосового помощника), содержащее или соединенное с по меньшей мере одним микрофоном (а также, необязательно, содержащее или соединенное с по меньшей мере одним динамиком и/или по меньшей мере одной камерой) и которое может обеспечивать возможность использования множества устройств (отличных от виртуального цифрового помощника) для приложений, которые в известном смысле доступны в облаке или иначе не реализованы в самом виртуальном цифровом помощнике или на нем. Виртуальные цифровые помощники могут иногда действовать совместно, например, весьма обособленным и условно заданным образом. Например, два или более виртуальных цифровых помощников могут действовать совместно в том смысле, что один из них, т. е. тот, который наиболее уверен в том, что услышал пробуждающее слово, откликается на это слово. Подключенные устройства могут образовывать некоторого рода группу, которой может управлять одно главное приложение, которое может представлять собой (или реализовывать) виртуального цифрового помощника.A virtual digital assistant (for example, a connected virtual digital assistant) is a device (for example, a smart speaker or an embedded voice assistant device) containing or connected to at least one microphone (and optionally containing or connected to at least one speaker and/or at least one camera) and which may enable the use of multiple devices (other than the virtual digital assistant) for applications that are in a sense available in the cloud or otherwise not implemented in or on the virtual digital assistant itself. Virtual digital assistants can sometimes work together, for example, in a very separate and conditional manner. For example, two or more virtual digital assistants can work together in the sense that one of them, i.e. the one who is most confident that he heard the wake-up word, responds to this word. The connected devices may form some kind of group that may be controlled by a single master application, which may be (or implement) a virtual digital assistant.
В контексте данного документа термин «пробуждающее слово» используется в широком смысле для обозначения любого звука (например, слова, произносимого человеком, или какого-либо другого звука), при этом интеллектуальное звуковое устройство выполнено с возможностью пробуждения в ответ на обнаружение («слышимости») звука (с использованием по меньшей мере одного микрофона, содержащегося в интеллектуальном звуковом устройстве или соединенного с ним, или по меньшей мере одного другого микрофона). В этом контексте «пробуждение» означает вхождение устройства в состояние, в котором оно ожидает (т. е. старается расслышать) звуковую команду. В некоторых случаях то, что может называться в данном документе «пробуждающим словом» может содержать более одного слова, например фразу.In the context of this document, the term "wake-up word" is used in a broad sense to refer to any sound (for example, a word spoken by a person, or some other sound), while the intelligent audio device is configured to wake up in response to detection ("audibility" ) sound (using at least one microphone contained in or connected to an intelligent audio device, or at least one other microphone). In this context, "waking up" means entering a state in which the device is waiting for (i.e., trying to hear) a sound command. In some cases, what may be referred to in this document as a "wake up word" may contain more than one word, such as a phrase.
В контексте данного документа термин «детектор пробуждающего слова» обозначает устройство, выполненное с возможностью (или программное обеспечение, содержащее команды для конфигурирования устройства) непрерывного поиска совпадения между признаками звука (например, речи) в реальном времени и обученной моделью. Обычно событие пробуждающего слова инициируется всякий раз, когда детектор пробуждающего слова определяет, что вероятность обнаружения пробуждающего слова превышает предварительно заданный порог. Например, этот порог может представлять собой предварительно заданный порог, настроенный на предоставление удовлетворительного компромисса между коэффициентами ложного доступа и ложного отказа. После наступления события пробуждающего слова устройство может входить в состояние (которое можно называть «пробужденным» состоянием или состоянием «концентрации внимания»), в котором оно слушает команду и при приеме команды переходит к большему средству распознавания с большим объемом вычислений.As used herein, the term "wake-up word detector" refers to a device capable of (or software containing instructions for configuring the device) continuously searching for a match between real-time audio (eg, speech) features and a trained model. Typically, a wakeup word event is triggered whenever the wakeup word detector determines that the probability of detecting a wakeup word exceeds a predetermined threshold. For example, this threshold may be a predetermined threshold tuned to provide a satisfactory trade-off between false access and false reject rates. After a wake-up word event occurs, the device may enter a state (which may be referred to as a "wake" or "attention" state) in which it listens for a command and, upon receiving the command, moves to a larger, more computationally intensive recognizer.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
Некоторые варианты осуществления включают способы рендеринга (или рендеринга и воспроизведения) пространственного звукового микса (например, рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере одним (например, всеми или некоторыми) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств и/или по меньшей мере одним (например, всеми или некоторыми) из динамиков другого набора динамиков. Некоторые варианты осуществления представляют собой способы (или системы) для такого рендеринга (например, включающего генерирование сигналов, подаваемых на динамики), а также воспроизведения подвергнутых рендерингу аудиоданных (например, воспроизведения сгенерированных сигналов, подаваемых на динамики).Some embodiments include methods for rendering (or rendering and playing) a spatial audio mix (e.g., rendering an audio data stream or multiple audio data streams) for playback by at least one (e.g., all or some) of the smart audio devices of a set of smart audio devices and/or at least one (eg, all or some) of the speakers of the other set of speakers. Some embodiments are methods (or systems) for such rendering (eg, including generating signals to speakers) as well as playback of rendered audio data (eg, playback of generated signals to speakers).
Один класс вариантов осуществления включает способы рендеринга (или рендеринга и воспроизведения) аудиоданных по меньшей мере одним (например, всеми или некоторыми) из множества скоординированных (организованных) интеллектуальных звуковых устройств. Например, набор интеллектуальных звуковых устройств, присутствующих (в системе) в доме пользователя, можно организовать для одновременной обработки множества вариантов использования, включая гибкий рендеринг аудиоданных для воспроизведения всеми или некоторыми (т. е. динамиком (динамиками), заключенным в или соединенным с некоторыми или всеми) из интеллектуальных звуковых устройств.One class of embodiments includes methods for rendering (or rendering and playing) audio data by at least one (eg, all or some) of a plurality of coordinated (organized) smart audio devices. For example, a set of smart audio devices present (on the system) in a user's home can be arranged to handle multiple use cases simultaneously, including flexible rendering of audio data for playback by all or some (i.e., speaker(s) enclosed in or connected to some or all) from smart audio devices.
Некоторые варианты осуществления настоящего изобретения представляют собой системы и способы для обработки аудиоданных, которая включает рендеринг аудиоданных (например, рендеринг пространственного звукового микса, например, путем рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере двумя динамиками (например, всеми или некоторыми из динамиков набора динамиков), и которая включает:Some embodiments of the present invention are systems and methods for processing audio data, which includes rendering audio data (e.g., rendering a spatial audio mix, e.g., by rendering an audio data stream or multiple audio data streams) for playback by at least two speakers (e.g., all or some from the speakers of the speaker set), and which includes:
(a) комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (таких как пороги ограничения (пороги ограничения воспроизведения) отдельных громкоговорителей, посредством чего определяются конфигурационные данные динамической обработки среды прослушивания для множества громкоговорителей (такие как комбинированные пороги); (a) combining individual speaker dynamics processing configuration data (such as clipping thresholds (playback limitation thresholds) of individual speakers, whereby listening environment dynamics processing configuration data for a plurality of speakers (such as combined thresholds) is determined);
(b) выполнение динамической обработки в отношении аудиоданных (например, потока (потоков) аудиоданных, отражающих пространственный звуковой микс) с применением конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей (например, комбинированных порогов) с целью генерирования обработанных аудиоданных; и (b) performing dynamics processing on audio data (eg, audio data stream(s) reflecting a spatial audio mix) using listening environment dynamics configuration data for a plurality of speakers (eg, combined thresholds) to generate processed audio data; and
(c) рендеринг обработанных аудиоданных в сигналы, подаваемые на динамики.(c) rendering the processed audio data into signals fed to speakers.
В некоторых вариантах осуществления обработка аудиоданных включает:In some embodiments, the processing of audio data includes:
(d) выполнение динамической обработки в отношении повергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя (например, ограничение сигналов, подаваемых на динамики, в соответствии с порогами ограничения воспроизведения, связанными с соответствующими динамиками, посредством чего генерируются ограниченные сигналы, подаваемые на динамики).(d) performing dynamics processing on rendered audio signals according to individual speaker dynamics configuration data for each speaker (e.g., clipping signals applied to speakers according to playback clipping thresholds associated with the respective speakers, whereby clipped signals to the speakers).
Динамики могут представлять собой динамики по меньшей мере одного (например, всех или некоторых) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств (или могут быть соединены по меньшей мере с одним из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств). В некоторых реализациях для генерирования ограниченных сигналов, подаваемых на динамики, на этапе (d) сигналы, подаваемые на динамики, сгенерированные на этапе (с), могут подвергаться обработке с помощью второго этапа динамической обработки (например, связанной с каждым динамиком системы динамической обработки), например, с целью генерирования ограниченных (т. е. динамически ограниченных) сигналов, подаваемых на динамики, перед их окончательным воспроизведением через динамики. Например, сигналы, подаваемые на динамики (или их подмножество, или их часть), могут доставляться в систему динамической обработки каждого отдельного из динамиков (например, в подсистему динамической обработки интеллектуального звукового устройства, при этом интеллектуальное звуковое устройство содержит соответствующий один из динамиков или соединено с ним), и обработанные выходные аудиоданные из каждой указанной системы динамической обработки можно использовать для генерирования ограниченного сигнала, подаваемого на динамик (например, динамически ограниченного сигнала, подаваемого на динамик), для соответствующего одного из динамиков. После динамической обработки для конкретных динамиков (иначе говоря, динамической обработки, выполненной независимо для каждого из динамиков) обработанные (например, динамически ограниченные) сигналы, подаваемые на динамики, можно использовать для приведения в действие динамиков с целью воспроизведения звука. The speakers may be the speakers of at least one (eg, all or some) of the smart sound devices in the smart sound device set (or may be connected to at least one of the smart sound devices in the smart sound device set). In some implementations, to generate limited speaker signals in step (d), the speaker signals generated in step (c) may be processed by a second dynamic processing step (e.g., a dynamics processing system associated with each speaker) , for example, to generate clipped (i.e., dynamically clipped) signals to the speakers before they are finally played back through the speakers. For example, signals applied to the speakers (or a subset or portion thereof) may be delivered to the dynamics processing system of each individual speaker (e.g., to the dynamics processing subsystem of an intelligent audio device, wherein the intelligent audio device comprises a corresponding one of the speakers or is connected with it), and the processed audio output from each of said dynamics processing systems can be used to generate a clipped speaker signal (eg, a dynamic clipped speaker signal) for a corresponding one of the speakers. After speaker-specific dynamics processing (in other words, dynamics processing performed independently for each of the speakers), the processed (eg, dynamically clipped) signals applied to the speakers can be used to drive the speakers for sound reproduction.
Первый этап динамической обработки (на этапе (b)) может быть выполнен с возможностью уменьшения отвлекающего восприятие сдвига в пространственном балансе, который иначе возникал бы при пропуске этапов (а) и (b) и генерировании динамически обработанных (например, ограниченных) сигналов, подаваемых на громкоговоритель, которые возникают из этапа (d) в ответ на исходные аудиоданные (а не в ответ на обработанные аудиоданные, генерируемые на этапе (b)). Это может предотвратить нежелательный сдвиг в пространственном балансе микширования. Второй этап динамической обработки на этапе (d), действующий в отношении подвергнутых рендерингу сигналов, подаваемых на динамики, из этапа (с), может быть выполнен с возможностью обеспечения отсутствия искажений динамиков, так как динамическая обработка на этапе (b) необязательно может обеспечивать уменьшение уровней сигналов ниже порогов для всех громкоговорителей. Комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (например, комбинирование порогов на первом этапе (этап (а)) в некоторых примерах может задействовать (например, включать) этап усреднения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах) или взятие минимального значения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах).The first stage of dynamics processing (in step (b)) can be configured to reduce the distracting shift in spatial balance that would otherwise occur if steps (a) and (b) were skipped and dynamically processed (e.g., clipped) signals generated to the loudspeaker that arise from step (d) in response to the original audio data (rather than in response to the processed audio data generated in step (b)). This can prevent unwanted shifts in the spatial balance of the mix. The second dynamics processing step in step (d) operating on the rendered speaker signals from step (c) may be configured to ensure that there is no speaker distortion since the dynamics processing in step (b) may optionally reduce signal levels below the thresholds for all loudspeakers. Combining the individual speaker dynamics configuration data (e.g., combining the thresholds in the first step (step (a)) in some examples may involve (e.g., include) an averaging step of the individual speaker dynamics processing configuration data (e.g., clipping thresholds) in the speakers (e.g., in smart audio devices) or taking the minimum value of individual speaker dynamics processing configuration data (eg clipping thresholds) in speakers (eg in smart audio devices).
В некоторых реализациях, когда первый этап динамической обработки (на этапе (b)) действует в отношении аудиоданных, указывающих на пространственное микширование (например, аудиоданные звуковой программы на основе объектов, содержащей по меньшей мире один канал объектов, а также, необязательно, по меньшей мере один канал динамика), этот первый этап можно реализовать в соответствии с техническим решением для обработки звуковых объектов путем использования пространственных зон. В этом случае комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, комбинированные пороги ограничения), связанные с каждой из зон, можно получить с помощью (или в виде) взвешенного среднего конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения отдельных динамиков), и эта весовая обработка может быть предоставлена или определена по меньшей мере частично посредством пространственной близости каждого динамика к зоне и/или положения в зоне.In some implementations, when the first stage of dynamics processing (in step (b)) operates on audio data indicative of spatial mixing (e.g., audio data of an object-based audio program containing at least one object channel in the world, and optionally at least at least one speaker channel), this first step can be implemented in accordance with the technical solution for processing audio objects by using spatial zones. In this case, the combined individual speaker dynamics configuration data (e.g., combined clipping thresholds) associated with each of the zones can be obtained using (or as) a weighted average of the individual speaker dynamics configuration data (e.g., individual speaker clipping thresholds), and this weighting may be provided or determined at least in part by each speaker's spatial proximity to the zone and/or position within the zone.
В одном классе вариантов осуществления система рендеринга аудиоданных может выполнять рендеринг по меньшей мере одного аудиопотока (например, множества аудиопотоков для одновременного воспроизведения) и/или воспроизводить подвергнутый рендерингу поток (потоки) через множество произвольно размещенных громкоговорителей, при этом по меньшей мере один (например, два или более) из указанных потоков программы представляет собой (или определяет) пространственное микширование. In one class of embodiments, an audio rendering system may render at least one audio stream (e.g., a plurality of audio streams for simultaneous playback) and/or play the rendered stream(s) through a plurality of randomly placed speakers, wherein at least one (e.g., two or more) of the specified program streams represent (or define) a spatial mix.
Аспекты настоящего изобретения могут включать систему, выполненную (например, запрограммированную) с возможностью выполнения одного или более раскрытых способов или их этапов, и материальный энергонезависимый машиночитаемый носитель данных, на котором реализовано постоянное хранение данных (например, диск или другой материальный носитель данных), и на котором хранится код для выполнения (например, исполняемый код для выполнения) одного или более раскрытых способов или их этапов. Например, некоторые варианты осуществления могут представлять собой или содержать программируемый процессор общего назначения, процессор цифровой обработки сигналов или микропроцессор, запрограммированный с использованием программного обеспечения или программно-аппаратного обеспечения и/или иным образом выполненный с возможностью выполнения любой из множества операций в отношении данных, включая один или более раскрытых способов или их этапов. Такой процессор общего назначения может представлять собой или содержать компьютерную систему, содержащую устройство ввода, запоминающее устройство и подсистему обработки, запрограммированную для (и/или иным образом выполненную с возможностью) выполнения одного или более раскрытых способов (или их этапов) в ответ на передаваемые в нее данные.Aspects of the present invention may include a system configured (eg, programmed) to perform one or more of the disclosed methods or steps thereof, and a tangible, non-volatile, computer-readable storage medium on which the data is permanently stored (eg, a disk or other tangible storage medium), and which stores code to execute (eg, executable code to execute) one or more of the disclosed methods or steps thereof. For example, some embodiments may be or comprise a general purpose programmable processor, digital signal processor, or microprocessor programmed using software or firmware and/or otherwise configured to perform any of a variety of operations on data, including one or more of the disclosed methods or steps thereof. Such a general purpose processor may be or comprise a computer system including an input device, a storage device, and a processing subsystem programmed to (and/or otherwise capable of) executing one or more of the disclosed methods (or steps thereof) in response to transmitted her data.
По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы с помощью таких способов, как способы обработки аудиоданных. В некоторых случаях эти способы могут быть по меньшей мере частично реализованы системой управления, такие как те, что описаны в данном документе. Некоторые такие способы включают получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В некоторых случаях конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей из множества громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Некоторые такие способы включают определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей.At least some aspects of the present invention may be implemented using techniques such as audio data processing techniques. In some cases, these methods may be at least partially implemented by the control system, such as those described herein. Some such methods include obtaining by the control system and through the interface system individual speaker dynamics processing configuration data for each of the plurality of speakers in the listening environment. In some cases, individual speaker dynamics processing configuration data for one or more speakers from a plurality of speakers may correspond to one or more functionality of one or more speakers. In some examples, the individual speaker dynamics processing configuration data comprises a set of individual speaker dynamics processing configuration data for each speaker of the plurality of speakers. Some such methods include determining by the control system the configuration data of the dynamic processing of the listening environment for a plurality of speakers. In some examples, the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each speaker of a plurality of speakers.
Некоторые такие способы включают прием системой управления через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. В некоторых примерах пространственные данные содержат данные каналов и/или пространственные метаданные. Некоторые такие способы включают выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Некоторые такие способы включают рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. Некоторые такие способы включают доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей.Some such methods include receiving by the control system, via the system of interfaces, audio data containing one or more audio signals and associated spatial data. In some examples, the spatial data contains channel data and/or spatial metadata. Some such methods include performing dynamics processing on the audio data based on the configuration data of the listening environment dynamics processing to generate processed audio data by the control system. Some such methods include rendering, by the control system, the processed audio data for playback through a loudspeaker set comprising at least some of the plurality of loudspeakers in order to obtain rendered audio signals. Some such methods involve delivering rendered audio signals via an interface system to a set of speakers.
В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. Набор данных порогов ограничения воспроизведения может, например, содержать пороги ограничения воспроизведения для каждого из множества частот.In some examples, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. The play limit threshold dataset may, for example, comprise play limit thresholds for each of the plurality of frequencies.
Согласно некоторым примерам, определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей, определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения. В некоторых таких примерах усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. Согласно некоторым реализациям взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some examples, determining the listening environment dynamic processing configuration data may include determining minimum playback limit thresholds across a plurality of speakers. In some cases, the determination of the listening environment dynamic processing configuration data may include averaging playback limit thresholds over multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the play limit thresholds to obtain average play limit thresholds across a plurality of speakers, determining minimum play limit thresholds across a plurality of speakers, and interpolating between the minimum play limit thresholds and the average play limit thresholds. In some such examples, averaging the play restriction thresholds may include determining a weighted average of the play restriction thresholds. According to some implementations, the weighted average may be based at least in part on the characteristics of the rendering process implemented by the control system.
В некоторых примерах выполнение динамической обработки в отношении аудиоданных может быть основано на пространственных зонах, при этом каждая из пространственных зон соответствует подмножеству среды прослушивания. Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых примерах взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. Согласно некоторым таким примерам, каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. В некоторых таких примерах номинальные пространственные положения соответствуют стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.In some examples, performing dynamics processing on audio data may be based on spatial zones, with each of the spatial zones corresponding to a subset of the listening environment. According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some examples, the weighted average may be based at least in part on the speaker contribution value for each speaker in each of the spatial zones. According to some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial zones. In some such examples, the nominal spatial positions correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker contribution value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.
Согласно некоторым реализациям способ также может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы.In some implementations, the method may also include performing dynamics on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker in the set of speakers to which the rendered audio signals are delivered.
В некоторых примерах рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Одна или более динамически конфигурируемых функций могут быть основаны, например, на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей и/или одном или более внешних входных сигналах.In some examples, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. One or more dynamically configurable functions may be based on, for example, one or more audio signal properties, one or more speaker set properties, and/or one or more external input signals.
Согласно некоторым реализациям выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания. В некоторых таких реализациях динамическая обработка может выполняться отдельно для каждой из пространственных зон. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон.According to some implementations, performing dynamic processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment. In some such implementations, dynamic processing may be performed separately for each of the spatial regions. In some cases, the determination of the configuration data of the dynamic processing of the listening environment may be performed separately for each of the spatial zones.
В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым таким примерам, набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба.In some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. According to some such examples, a dynamic range compression data set may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data.
Согласно некоторым реализациям определение конфигурационных данных динамической обработки среды прослушивания может являться по меньшей мере частично основанным на комбинировании наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some implementations, the determination of the listening environment dynamics processing configuration data may be based at least in part on a combination of dynamics processing configuration data sets across a plurality of speakers. In some examples, the combination of dynamic processing configuration data sets across multiple speakers may be based at least in part on the characteristics of the rendering process implemented by the control system.
В некоторых таких примерах выполнение динамической обработки в отношении аудиоданных может основываться на одной или более пространственных зонах. Каждая из одной или более пространственных зон может соответствовать всей среде прослушивания или ее подмножеству. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может выполняться отдельно для каждой из одной или более пространственных зон. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.In some such examples, performing dynamics processing on audio data may be based on one or more spatial regions. Each of the one or more spatial zones may correspond to the entire listening environment or a subset thereof. In some such examples, the combination of dynamic processing configuration data sets across multiple speakers may be performed separately for each of one or more spatial regions. In some such examples, combining sets of dynamic processing configuration data across multiple speakers separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones. .
Согласно некоторым таким примерам, комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. В некоторых таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых таких примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.According to some such examples, combining dynamic configuration data sets across multiple speakers separately for each of one or more spatial zones may be based at least in part on a speaker contribution value for each speaker in each of the one or more spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some such examples, the nominal spatial positions may correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker participation value may be at least partially based on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the one or more spatial zones.
Некоторые или все из операций, функций и/или способов, описанных в данном документе, могут быть выполнены посредством одного или более устройств в соответствии с командами (например, программным обеспечением), хранящимися в одном или более постоянных носителях данных. Такие постоянные носители данных могут содержать запоминающие устройства, такие как те, что описаны в данном документе, включая, но без ограничения, оперативные запоминающие устройства (random access memory, RAM), постоянные запоминающие устройства (read-only memory, ROM) и т. д. Соответственно, некоторые изобретательские особенности объекта, описанные в настоящем изобретении, могут быть реализованы в постоянном носителе данных, содержащем хранящееся в нем программное обеспечение.Some or all of the operations, functions, and/or methods described herein may be performed by one or more devices in accordance with instructions (eg, software) stored in one or more persistent storage media. Such persistent storage media may include storage devices such as those described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. e. Accordingly, some of the inventive features of the subject matter described in the present invention may be implemented in a persistent storage medium containing software stored therein.
Например, программное обеспечение может содержать команды для управления одним или более устройствами с целью выполнения способа, включающего получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В некоторых случаях конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей из множества громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Некоторые такие способы включают определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей.For example, the software may contain instructions for controlling one or more devices to perform a method including obtaining by the control system and through the interface system individual speaker dynamics processing configuration data for each of the plurality of speakers in the listening environment. In some cases, individual speaker dynamics processing configuration data for one or more speakers from a plurality of speakers may correspond to one or more functionality of one or more speakers. In some examples, the individual speaker dynamics processing configuration data comprises a set of individual speaker dynamics processing configuration data for each speaker of the plurality of speakers. Some such methods include determining by the control system the configuration data of the dynamic processing of the listening environment for a plurality of speakers. In some examples, the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each speaker of a plurality of speakers.
Некоторые такие способы включают прием системой управления через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. В некоторых примерах пространственные данные содержат данные каналов и/или пространственные метаданные. Некоторые такие способы включают выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Некоторые такие способы включают рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. Некоторые такие способы включают доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей.Some such methods include receiving by the control system, via the system of interfaces, audio data containing one or more audio signals and associated spatial data. In some examples, the spatial data contains channel data and/or spatial metadata. Some such methods include performing dynamics processing on the audio data based on the configuration data of the listening environment dynamics processing to generate processed audio data by the control system. Some such methods include rendering, by the control system, the processed audio data for playback through a loudspeaker set comprising at least some of the plurality of loudspeakers in order to obtain rendered audio signals. Some such methods involve delivering rendered audio signals via an interface system to a set of speakers.
В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. Набор данных порогов ограничения воспроизведения может, например, содержать пороги ограничения воспроизведения для каждого из множества частот.In some examples, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. The play limit threshold dataset may, for example, comprise play limit thresholds for each of the plurality of frequencies.
Согласно некоторым примерам, определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей, определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения. В некоторых таких примерах усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. Согласно некоторым реализациям взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some examples, determining the listening environment dynamic processing configuration data may include determining minimum playback limit thresholds across a plurality of speakers. In some cases, the determination of the listening environment dynamic processing configuration data may include averaging playback limit thresholds over multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the play limit thresholds to obtain average play limit thresholds across a plurality of speakers, determining minimum play limit thresholds across a plurality of speakers, and interpolating between the minimum play limit thresholds and the average play limit thresholds. In some such examples, averaging the play restriction thresholds may include determining a weighted average of the play restriction thresholds. According to some implementations, the weighted average may be based at least in part on the characteristics of the rendering process implemented by the control system.
В некоторых примерах выполнение динамической обработки в отношении аудиоданных может быть основано на пространственных зонах, при этом каждая из пространственных зон соответствует подмножеству среды прослушивания. Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых примерах взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. Согласно некоторым таким примерам, каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. В некоторых таких примерах номинальные пространственные положения соответствуют стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.In some examples, performing dynamics processing on audio data may be based on spatial zones, with each of the spatial zones corresponding to a subset of the listening environment. According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some examples, the weighted average may be based at least in part on the speaker contribution value for each speaker in each of the spatial zones. According to some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial zones. In some such examples, the nominal spatial positions correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker contribution value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.
Согласно некоторым реализациям способ также может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы.In some implementations, the method may also include performing dynamics on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker in the set of speakers to which the rendered audio signals are delivered.
В некоторых примерах рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Одна или более динамически конфигурируемых функций могут быть основаны, например, на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей и/или одном или более внешних входных сигналах.In some examples, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. One or more dynamically configurable functions may be based on, for example, one or more audio signal properties, one or more speaker set properties, and/or one or more external input signals.
Согласно некоторым реализациям выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания. В некоторых таких реализациях динамическая обработка может выполняться отдельно для каждой из пространственных зон. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон.According to some implementations, performing dynamics processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment. In some such implementations, dynamic processing may be performed separately for each of the spatial zones. In some cases, the determination of the configuration data of the dynamic processing of the listening environment may be performed separately for each of the spatial zones.
В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым таким примерам, набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба.In some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. According to some such examples, a dynamic range compression data set may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data.
Согласно некоторым реализациям определение конфигурационных данных динамической обработки среды прослушивания может являться по меньшей мере частично основанным на комбинировании наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some implementations, the determination of the listening environment dynamics processing configuration data may be based at least in part on a combination of dynamics processing configuration data sets over a plurality of speakers. In some examples, the combination of dynamic processing configuration data sets across multiple speakers may be based at least in part on the characteristics of the rendering process implemented by the control system.
В некоторых таких примерах выполнение динамической обработки в отношении аудиоданных может основываться на одной или более пространственных зонах. Каждая из одной или более пространственных зон может соответствовать всей среде прослушивания или ее подмножеству. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может выполняться отдельно для каждой из одной или более пространственных зон. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.In some such examples, performing dynamics processing on audio data may be based on one or more spatial regions. Each of the one or more spatial zones may correspond to the entire listening environment or a subset thereof. In some such examples, the combination of dynamic processing configuration data sets across multiple speakers may be performed separately for each of one or more spatial regions. In some such examples, combining sets of dynamic processing configuration data across multiple speakers separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones. .
Согласно некоторым таким примерам, комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. В некоторых таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых таких примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.According to some such examples, combining dynamic configuration data sets across multiple speakers separately for each of one or more spatial zones may be based at least in part on a speaker contribution value for each speaker in each of the one or more spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some such examples, the nominal spatial positions may correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker participation value may be at least partially based on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the one or more spatial zones.
В некоторых реализациях аппарат может содержать интерфейсную систему и систему управления. Система управления может содержать один или более одно- или многокристальных процессоров общего назначения, процессоров цифровой обработки сигналов (digital signal processors, DSP), специализированных интегральных схем (application specific integrated circuits, ASIC), программируемых пользователем вентильных матриц (field programmable gate arrays, FPGA) или других программируемых логических устройств, схем на дискретных компонентах или транзисторных логических схем, компонентов дискретного аппаратного обеспечения и/или их комбинации.In some implementations, the apparatus may include an interface system and a control system. The control system may contain one or more single- or multi-chip general purpose processors, digital signal processors (DSPs), application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs). ) or other programmable logic devices, discrete or transistorized logic circuits, discrete hardware components, and/or combinations thereof.
В некоторых реализациях система управления может быть выполнена с возможностью выполнения одного или более способов, раскрытых в данном документе. Некоторые такие способы могут включать получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В некоторых случаях конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей из множества громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Некоторые такие способы включают определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей.In some implementations, the control system may be configured to perform one or more of the methods disclosed herein. Some such methods may include obtaining, by the control system and through the system interfaces, individual speaker dynamics processing configuration data for each of the plurality of speakers in the listening environment. In some cases, individual speaker dynamics processing configuration data for one or more speakers from a plurality of speakers may correspond to one or more functionality of one or more speakers. In some examples, the individual speaker dynamics processing configuration data comprises a set of individual speaker dynamics processing configuration data for each speaker of the plurality of speakers. Some such methods include determining by the control system the configuration data of the dynamic processing of the listening environment for a plurality of speakers. In some examples, the determination of the listening environment dynamics processing configuration data is based on a set of individual speaker dynamics processing configuration data for each speaker of a plurality of speakers.
Некоторые такие способы включают прием системой управления через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. В некоторых примерах пространственные данные содержат данные каналов и/или пространственные метаданные. Некоторые такие способы включают выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Некоторые такие способы включают рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. Некоторые такие способы включают доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей.Some such methods include receiving by the control system, via the system of interfaces, audio data containing one or more audio signals and associated spatial data. In some examples, the spatial data contains channel data and/or spatial metadata. Some such methods include performing dynamics processing on the audio data based on the configuration data of the listening environment dynamics processing to generate processed audio data by the control system. Some such methods include rendering, by the control system, the processed audio data for playback through a loudspeaker set comprising at least some of the plurality of loudspeakers in order to obtain rendered audio signals. Some such methods involve delivering rendered audio signals via an interface system to a set of speakers.
В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. Набор данных порогов ограничения воспроизведения может, например, содержать пороги ограничения воспроизведения для каждого из множества частот.In some examples, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. The play limit threshold dataset may, for example, comprise play limit thresholds for each of the plurality of frequencies.
Согласно некоторым примерам, определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей, определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения. В некоторых таких примерах усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. Согласно некоторым реализациям взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some examples, determining the listening environment dynamic processing configuration data may include determining minimum playback limit thresholds across a plurality of speakers. In some cases, the determination of the listening environment dynamic processing configuration data may include averaging playback limit thresholds over multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the play limit thresholds to obtain average play limit thresholds across a plurality of speakers, determining minimum play limit thresholds across a plurality of speakers, and interpolating between the minimum play limit thresholds and the average play limit thresholds. In some such examples, averaging the play restriction thresholds may include determining a weighted average of the play restriction thresholds. According to some implementations, the weighted average may be based at least in part on the characteristics of the rendering process implemented by the control system.
В некоторых примерах выполнение динамической обработки в отношении аудиоданных может быть основано на пространственных зонах, при этом каждая из пространственных зон соответствует подмножеству среды прослушивания. Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых примерах взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. Согласно некоторым таким примерам, каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. В некоторых таких примерах номинальные пространственные положения соответствуют стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.In some examples, performing dynamics processing on audio data may be based on spatial zones, with each of the spatial zones corresponding to a subset of the listening environment. According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some examples, the weighted average may be based at least in part on the speaker contribution value for each speaker in each of the spatial zones. According to some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial zones. In some such examples, the nominal spatial positions correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker contribution value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.
Согласно некоторым реализациям способ также может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы.In some implementations, the method may also include performing dynamics on the rendered audio signals in accordance with individual speaker dynamics configuration data for each speaker in the set of speakers to which the rendered audio signals are delivered.
В некоторых примерах рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Одна или более динамически конфигурируемых функций могут быть основаны, например, на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей и/или одном или более внешних входных сигналах.In some examples, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. One or more dynamically configurable functions may be based on, for example, one or more audio signal properties, one or more speaker set properties, and/or one or more external input signals.
Согласно некоторым реализациям выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания. В некоторых таких реализациях динамическая обработка может выполняться отдельно для каждой из пространственных зон. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон.According to some implementations, performing dynamic processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment. In some such implementations, dynamic processing may be performed separately for each of the spatial regions. In some cases, the determination of the configuration data of the dynamic processing of the listening environment may be performed separately for each of the spatial zones.
В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым таким примерам, набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба.In some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. According to some such examples, a dynamic range compression data set may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data.
Согласно некоторым реализациям определение конфигурационных данных динамической обработки среды прослушивания может являться по меньшей мере частично основанным на комбинировании наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления.According to some implementations, the determination of the listening environment dynamics processing configuration data may be based at least in part on a combination of dynamics processing configuration data sets over a plurality of speakers. In some examples, the combination of dynamic processing configuration data sets across multiple speakers may be based at least in part on the characteristics of the rendering process implemented by the control system.
В некоторых таких примерах выполнение динамической обработки в отношении аудиоданных может основываться на одной или более пространственных зонах. Каждая из одной или более пространственных зон может соответствовать всей среде прослушивания или ее подмножеству. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей может выполняться отдельно для каждой из одной или более пространственных зон. В некоторых таких примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.In some such examples, performing dynamics processing on audio data may be based on one or more spatial regions. Each of the one or more spatial zones may correspond to the entire listening environment or a subset thereof. In some such examples, the combination of dynamic processing configuration data sets across multiple speakers may be performed separately for each of one or more spatial regions. In some such examples, combining sets of dynamic processing configuration data across multiple speakers separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones. .
Согласно некоторым таким примерам, комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. В некоторых таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых таких примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов, таким как стандартные местоположения каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых случаях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.According to some such examples, combining dynamic configuration data sets across multiple speakers separately for each of one or more spatial zones may be based at least in part on a speaker contribution value for each speaker in each of the one or more spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some such examples, the nominal spatial positions may correspond to standard channel locations, such as standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some cases, each speaker participation value may be at least partially based on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the one or more spatial zones.
Подробности одной или более реализаций объекта изобретения, описываемого в данном описании, изложены в сопроводительных графических материалах и в приведенном ниже описании. Другие признаки, аспекты и преимущества будут очевидны из описания, графических материалов и формулы изобретения. Следует отметить, что относительные размеры на нижеследующих фигурах могут быть приведены не в масштабе.Details of one or more implementations of the subject matter described herein are set forth in the accompanying drawings and in the description below. Other features, aspects and advantages will be apparent from the description, drawings and claims. It should be noted that the relative dimensions in the following figures may not be drawn to scale.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHICS
На фиг. 1 представлена блок-схема, на которой показаны примеры компонентов устройства, способного реализовывать различные аспекты настоящего изобретения.In FIG. 1 is a block diagram showing examples of components of a device capable of implementing various aspects of the present invention.
На фиг. 2 изображен вид сверху среды прослушивания, которая в данном примере представляет собой жилую площадь.In FIG. 2 is a plan view of a listening environment, which in this example is a living area.
На фиг. 3 представлена блок-схема, на которой показаны примеры компонентов системы, способной реализовывать различные аспекты настоящего изобретения.In FIG. 3 is a block diagram showing examples of system components capable of implementing various aspects of the present invention.
На фиг. 4A, 4B и 4C представлены примеры порогов ограничения воспроизведения и соответствующие частоты.In FIG. 4A, 4B and 4C show examples of playback clipping thresholds and corresponding frequencies.
На фиг. 5А и 5В представлены графики, на которых показаны примеры данных сжатия динамического диапазона.In FIG. 5A and 5B are graphs showing examples of dynamic range compression data.
На фиг. 6 представлен пример пространственных зон среды прослушивания.In FIG. 6 shows an example of the spatial zones of the listening environment.
На фиг. 7 представлены примеры громкоговорителей в пространственных зонах по фиг. 6.In FIG. 7 shows examples of loudspeakers in the spatial zones of FIG. 6.
На фиг. 8 представлен пример номинальных пространственных положений, наложенных на пространственные зоны и динамики по фиг. 7.In FIG. 8 shows an example of nominal spatial positions superimposed on the spatial zones and dynamics of FIG. 7.
На фиг. 9 представлена блок-схема, на которой описан один пример способа, который может выполняться таким устройством или системой, как те, что раскрыты в данном документе.In FIG. 9 is a flow diagram that describes one example of a method that can be performed by such a device or system as those disclosed herein.
На фиг. 10 и 11 представлены схемы, на которых изображен иллюстративный набор значений активации динамиков и положений рендеринга объектов.In FIG. 10 and 11 are diagrams depicting an exemplary set of speaker activation values and object rendering positions.
На фиг. 12A, 12B и 12C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 10 и 11.In FIG. 12A, 12B and 12C show examples of speaker contribution values corresponding to the examples of FIG. 10 and 11.
На фиг. 13 представлен график значений активации динамиков в иллюстративном варианте осуществления.In FIG. 13 is a graph of speaker activation values in an exemplary embodiment.
На фиг. 14 представлен график положений рендеринга объектов в иллюстративном варианте осуществления.In FIG. 14 is a graph of object rendering positions in an exemplary embodiment.
На фиг. 15A, 15B и 15C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 13 и 14.In FIG. 15A, 15B and 15C show examples of speaker participation values corresponding to the examples of FIG. 13 and 14.
На фиг. 16 представлен график значений активации динамиков в иллюстративном варианте осуществления.In FIG. 16 is a graph of speaker activation values in an exemplary embodiment.
На фиг. 17 представлен график положений рендеринга объектов в иллюстративном варианте осуществления.In FIG. 17 is a graph of object rendering positions in an exemplary embodiment.
На фиг. 18A, 18B и 18C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 16 и 17.In FIG. 18A, 18B and 18C show examples of speaker contribution values corresponding to the examples of FIG. 16 and 17.
На фиг. 19 представлен график значений активации динамиков в иллюстративном варианте осуществления.In FIG. 19 is a graph of speaker activation values in an exemplary embodiment.
На фиг. 20 представлен график положений рендеринга объектов в иллюстративном варианте осуществления.In FIG. 20 is a graph of object rendering positions in an exemplary embodiment.
На фиг. 21A, 21B и 21C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 19 и 20.In FIG. 21A, 21B and 21C show examples of speaker contribution values corresponding to the examples of FIG. 19 and 20.
На фиг. 22 изображена схема среды, которая в данном примере представляет собой жилую площадь.In FIG. 22 is a diagram of an environment, which in this example is a living area.
Подобные ссылочные позиции и обозначения в разных графических материалах указывают подобные элементы.Like reference numerals and symbols in the various drawings indicate like elements.
ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯDETAILED DESCRIPTION OF EMBODIMENTS
На фиг. 1 представлена блок-схема, на которой показаны примеры компонентов устройства, способного реализовывать различные аспекты настоящего изобретения. Как и на других фигурах, представленных в данном документе, типы и количества элементов, показанных на фиг. 1, представлены лишь в качестве примера. Другие реализации могут содержать большее, меньшее количество элементов, и/или разные типы и количества элементов. Согласно некоторым примерам, устройство 100 может представлять собой или содержать интеллектуальное звуковое устройство, выполненное с возможностью выполнения по меньшей мере некоторых способов, раскрытых в данном документе. В некоторых реализациях устройство 100 может представлять собой или может содержать другое устройство, выполненное с возможностью выполнения по меньшей мере некоторых из способов, раскрытых в данном документе, такое как ноутбук, сотовый телефон, планшетное устройство, концентратор умного дома и т. д. В некоторых таких реализациях устройство 100 может представлять собой или содержать сервер.In FIG. 1 is a block diagram showing examples of components of a device capable of implementing various aspects of the present invention. As with other figures presented herein, the types and numbers of elements shown in FIG. 1 are presented by way of example only. Other implementations may contain more, fewer elements, and/or different types and numbers of elements. According to some examples,
В этом примере устройство 100 содержит систему 105 интерфейсов и систему 110 управления. В некоторых реализациях система 105 интерфейсов может быть выполнена с возможностью приема аудиоданных. Аудиоданные могут содержать звуковые сигналы, запланированные для воспроизведения по меньшей мере некоторыми динамиками среды. Аудиоданные могут содержать один или более звуковых сигналов и связанные пространственные данные. Пространственные данные могут содержать, например, данные каналов и/или пространственные метаданные. Система 105 интерфейсов может быть выполнена с возможностью доставки подвергнутых рендерингу звуковых сигналов в по меньшей мере некоторые громкоговорители набора громкоговорителей среды. В некоторых реализациях система 105 интерфейсов может быть выполнена с возможностью приема входных данных из одного или более микрофонов среды.In this example,
Система 105 интерфейсов может содержать один или более сетевых интерфейсов и/или один или более интерфейсов для внешних устройств (таких как один или более интерфейсов универсальной последовательной шины (universal serial bus, USB)). Согласно некоторым реализациям система 105 интерфейсов может содержать один или более беспроводных интерфейсов. Система 105 интерфейсов может содержать одно или более устройств для реализации пользовательского интерфейса, таких как один или более микрофонов, один или более динамиков, систему дисплеев, систему сенсорных датчиков и/или систему датчиков жестов. В некоторых примерах система 105 интерфейсов может содержать один или более интерфейсов между системой 110 управления и системой памяти, такой как необязательная система 115 памяти, представленная на фиг. 1. Однако в некоторых случаях система 110 управления может содержать систему памяти.
Например, система 110 управления может содержать одно- или многокристальный процессор общего назначения, процессор цифровой обработки сигналов (DSP), интегральную схему специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, и/или компоненты дискретного аппаратного обеспечения.For example,
В некоторых реализациях система 110 управления может находиться в более чем одном устройстве. Например, одна часть системы 110 управления может находиться в устройстве в одной из сред, изображенных в данном документе, а другая часть системы 110 управления может находиться в устройстве, находящемся за пределами этой среды, таком как сервер, мобильное устройство (например, смартфон или планшетный компьютер) и т. д. В других примерах одна часть системы 110 управления может находиться в устройстве в одной из сред, изображенных в данном документе, а другая часть системы 110 управления может находиться в одном или более других устройствах этой среды. Например, функциональные возможности системы управления могут быть распределены по нескольким интеллектуальным звуковым устройствам среды или могут быть разделены между организующим устройством (таким, что в данном документе может называться концентратором умного дома) и одним или более устройствами этой среды. В некоторых таких примерах в более чем одном устройстве также может находиться система 105 интерфейсов.In some implementations,
В некоторых реализациях система 110 управления может быть выполнена с возможностью выполнения по меньшей мере частично способов, раскрытых в данном документе. Согласно некоторым примерам, система 110 управления может быть выполнена с возможностью реализации способов управления воспроизведением множества потоков аудиоданных через множество динамиков.In some implementations,
Некоторые или все способы, описанные в данном документе, могут быть выполнены с помощью одного или более устройств в соответствии с командами (например, программным обеспечением), хранящимися на одном или более постоянных носителях данных. Такие постоянные носители данных могут включать запоминающие устройства, такие как те, что описаны в данном документе, включая, но без ограничения, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т. д. Один или более постоянных носителей данных могут находиться, например, в необязательной системе 115 памяти, представленной на фиг. 1, и/или в системе 110 управления. Соответственно, различные новаторские аспекты предмета изобретения, описанного в настоящем изобретении, могут быть реализованы в одном или более постоянных носителях данных, содержащих хранящееся на них программное обеспечение. Например, программное обеспечение может содержать команды для управления по меньшей мере одним устройством с целью обработки аудиоданных. Например, программное обеспечение может быть выполнено с возможностью исполнения одним или более компонентами системы управления, такой как система 110 управления по фиг. 1.Some or all of the methods described herein may be performed by one or more devices in accordance with instructions (eg, software) stored on one or more permanent storage media. Such read-only storage media may include storage media such as those described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. One or more persistent storage media may reside, for example, in the
В некоторых примерах устройство 100 может содержать необязательную систему 120 микрофонов, представленную на фиг. 1. Необязательная система 120 микрофонов может содержать один или более микрофонов. В некоторых реализациях один или более микрофонов могут являться частью или быть связанными с другим устройством, таким как динамик системы динамиков, интеллектуальное звуковое устройство и т. д.In some examples,
Согласно некоторым реализациям устройство 100 может содержать необязательную систему 125 громкоговорителей, представленную на фиг. 1. Необязательная система 125 громкоговорителей может содержать один или более громкоговорителей. В данном документе громкоговорители иногда могут называться «динамиками». В некоторых примерах по меньшей мере некоторые громкоговорители необязательной системы 125 громкоговорителей могут быть расположены произвольно. Например, по меньшей мере некоторые динамики необязательной системы 125 громкоговорителей могут быть размещены в местоположениях, не соответствующих какой-либо предписанной стандартом схеме размещения динамиков, такой как Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, Dolby 9.1, Hamasaki 22.2 и т. д. В некоторых таких примерах по меньшей мере некоторые громкоговорители необязательной системы 125 громкоговорителей могут быть размещены в местоположениях, удобных для данного пространства (например, в тех местоположениях, где имеется пространство для размещения громкоговорителей), а не по какой-либо предписанной стандартом схеме размещения громкоговорителей.In some implementations,
В некоторых реализациях устройство 100 может содержать необязательную систему 130 датчиков, представленную на фиг. 1. Необязательная система 130 датчиков может содержать одну или более камер, сенсорных датчиков, датчиков жестов, датчиков движения и т. д. Согласно некоторым реализациям необязательная система 130 датчиков может содержать одну или более камер. В некоторых реализациях камеры могут представлять собой автономные камеры. В некоторых примерах одна или более камер необязательной системы 130 датчиков могут находиться в интеллектуальном звуковом устройстве, которое может представлять собой звуковое устройство специального назначения или виртуального цифрового помощника. В некоторых таких примерах одна или более камер необязательной системы 130 датчиков могут находиться в телевизоре, мобильном телефоне или интеллектуальном динамике.In some implementations,
В некоторых реализациях устройство 100 может содержать необязательную систему 135 дисплеев, представленную на фиг. 1. Необязательная система 135 дисплеев может содержать один или более дисплеев, таких как один или более светодиодных (light-emitting diode, LED) дисплеев. В некоторых случаях необязательная система 135 дисплеев может содержать один или более дисплеев на органических светодиодах (organic light-emitting diode, OLED). В некоторых примерах, в которых устройство 100 содержит систему 135 дисплеев, система 130 датчиков может содержать систему сенсорных датчиков и/или систему датчиков жестов поблизости от одного или более дисплеев системы 135 дисплеев. Согласно некоторым таким реализациям, система 110 управления может быть выполнена с возможностью управления системой 135 дисплеев с целью предоставления графического пользовательского интерфейса (graphical user interface, GUI), такого как один из GUI, раскрытых в данном документе.In some implementations,
Согласно некоторым примерам, устройство 100 может представлять собой или может содержать интеллектуальное звуковое устройство. В некоторых таких реализациях устройство 100 может представлять собой или может содержать детектор пробуждающего слова. Например, устройство 100 может представлять собой или может содержать виртуального цифрового помощника.According to some examples,
На фиг. 2 изображен вид сверху среды прослушивания, которая в данном примере представляет собой жилую площадь. Как и на других фигурах, представленных в данном документе, типы и количества элементов, показанных на фиг. 2, представлены лишь в качестве примера. Другие реализации могут содержать большее, меньшее количество элементов, и/или разные типы и количества элементов. Согласно данному примеру, среда 200 содержит жилую комнату 210 вверху слева, кухню 215 внизу в центре и спальню 222 внизу справа. Прямоугольники и круги, распределенные по жилой площади, представляют набор громкоговорителей 205a–205h, по меньшей мере некоторые из которых в некоторых реализациях могут представлять собой интеллектуальные динамики, размещенные в местоположениях, удобных для этого пространства, но не привязывающиеся к какой-либо предписанной стандартом схеме размещения (размещены произвольно). В некоторых примерах громкоговорители 205a–205h могут являться скоординированными для реализации одного или более раскрытых вариантов осуществления.In FIG. 2 is a plan view of a listening environment, which in this example is a living area. As with other figures presented herein, the types and numbers of elements shown in FIG. 2 are presented by way of example only. Other implementations may contain more, fewer elements, and/or different types and numbers of elements. In this example,
Согласно некоторым примерам, среда 200 может содержать концентратор умного дома для реализации по меньшей мере некоторых из раскрытых способов. Согласно некоторым таким реализациям, концентратор умного дома может содержать по меньшей мере часть вышеописанной системы 110 управления. В некоторых примерах концентратор умного дома может быть реализован интеллектуальным устройством (таким как интеллектуальный динамик, мобильный телефон, интеллектуальный телевизор, устройство, используемое для реализации виртуального цифрового помощника, и т. д.).According to some examples,
В этом примере среда 200 содержит камеры 211a–211e, которые распределены по всей среде. В некоторых реализациях одно или более интеллектуальных звуковых устройств в среде 200 также могут содержать одну или более камер. Одно или более интеллектуальных звуковых устройств могут представлять собой звуковые устройства специального назначения или виртуальных цифровых помощников. В некоторых таких примерах одна или более камер необязательной системы 130 датчиков могут находиться в телевизоре 230 или на нем, в мобильном телефоне или в интеллектуальном динамике, таком как один или более громкоговорителей 205b, 205d, 205e и 205h. Хотя камеры 211a–211e не показаны на каждом изображении среды 200, представленной в данном описании, каждая из сред 200 может, тем не менее, содержать одну или более камер в некоторых реализациях.In this example,
При гибком рендеринге рендеринг пространственных аудиоданных может выполняться для произвольного количества произвольно размещенных динамиков. При условии широкого распространения в доме интеллектуальных звуковых устройств (например, интеллектуальных динамиков), существует потребность в реализации технологии гибкого рендеринга, позволяющей потребителям выполнять гибкий рендеринг аудиоданных и воспроизводить подвергнутые этому рендерингу аудиоданные с использованием интеллектуальных звуковых устройств.With flexible rendering, rendering of spatial audio data can be performed for an arbitrary number of randomly placed speakers. Given the widespread use of smart audio devices (eg, smart speakers) in the home, there is a need to implement a flexible rendering technology that allows consumers to perform flexible rendering of audio data and play the rendered audio data using smart audio devices.
Для реализации гибкого рендеринга было разработано несколько технологий, в том числе: «Амплитудное панорамирование центра масс» (Center of Mass Amplitude Panning, CMAP) и «Гибкая виртуализация» (Flexible Virtualization, FV).Several technologies have been developed to implement flexible rendering, including: Center of Mass Amplitude Panning (CMAP) and Flexible Virtualization (FV).
В контексте выполнения рендеринга (или рендеринга и воспроизведения) пространственного звукового микса (например, рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения интеллектуальными звуковыми устройствами из набора интеллектуальных звуковых устройств (или другим набором динамиков), типы динамиков (например, в интеллектуальных звуковых устройствах или соединенных с интеллектуальными звуковыми устройствами) могут варьироваться, и поэтому могут весьма значительно варьироваться соответствующие акустические функциональные возможности динамиков. В примере, представленном на фиг. 2, громкоговорители 205d, 205f и 205h представляют собой интеллектуальные динамики с одним динамиком диаметром 0,6 дюйма. В этом примере громкоговорители 205b, 205c, 205e и 205f представляют собой интеллектуальные динамики, содержащие низкочастотный динамик диаметром 2,5 дюйма и высокочастотный динамик диаметром 0,8 дюйма. Согласно данному примеру громкоговоритель 205g представляет собой интеллектуальный динамик, с низкочастотным динамиком диаметром 5,25 дюймов, тремя среднечастотными динамиками диаметром 2 дюйма и высокочастотным динамиком диаметром 1,0 дюйма. Здесь громкоговоритель 205а представляет собой звуковую панель, содержащую шестнадцать излучающих головок диаметром 1,1 дюйма и два низкочастотных динамика диаметром 4 дюйма. Соответственно, низкочастотные функциональные возможности интеллектуальных динамиков 205d и 205f являются значительно меньшими, чем у других громкоговорителей в среде 200, в частности, у громкоговорителей, содержащих низкочастотные динамики диаметром 4 дюйма или 5,25 дюймов.In the context of rendering (or rendering and playing) a spatial audio mix (e.g., rendering an audio data stream or multiple audio data streams) for playback by smart sound devices in a smart sound device set (or other set of speakers), speaker types (e.g., in smart sound devices or connected to intelligent audio devices) can vary and therefore the corresponding acoustic functionality of the speakers can vary quite significantly. In the example shown in FIG. 2, the
На фиг. 3 представлена блок-схема, на которой показаны примеры компонентов системы, способной реализовывать различные аспекты настоящего изобретения. Как и на других фигурах, представленных в данном документе, типы и количества элементов, показанных на фиг. 1, представлены лишь в качестве примера. Другие реализации могут содержать большее, меньшее количество элементов, и/или разные типы и количества элементов.In FIG. 3 is a block diagram showing examples of system components capable of implementing various aspects of the present invention. As with other figures presented herein, the types and numbers of elements shown in FIG. 1 are presented by way of example only. Other implementations may contain more, fewer elements, and/or different types and numbers of elements.
Согласно данному примеру, система 300 содержит концентратор 305 умного дома и громкоговорители 205а–205m. В этом примере концентратор 305 умного дома содержит пример системы 110 управления, представленной на фиг. 1 и описанной выше. Согласно данной реализации, система 110 управления содержит модуль 310 конфигурационных данных динамической обработки среды прослушивания, модуль 315 динамической обработки среды прослушивания и модуль 320 рендеринга. Ниже описаны некоторые примеры модуля 310 конфигурационных данных динамической обработки среды прослушивания, модуля 315 динамической обработки среды прослушивания и модуля 320 рендеринга. В некоторых примерах модуль 320’ рендеринга может быть выполнен с возможностью как рендеринга, так и динамической обработки среды прослушивания.In this example,
Как показано стрелками между концентратором 305 умного дома и громкоговорителями 205а–205m, концентратор 305 умного дома также содержит пример системы 105 интерфейсов, представленной на фиг. 1 и описанной выше. Согласно некоторым примерам, концентратор 305 умного дома может являться частью среды 200, представленной на фиг. 2. В некоторых случаях концентратор 305 умного дома может быть реализован с помощью интеллектуального динамика, интеллектуального телевизора, сотового телефона, ноутбука и т. д. В некоторых реализациях концентратор 305 умного дома может быть реализован с помощью программного обеспечения, например, с помощью программного обеспечения из загружаемого программного приложения, или «app». В некоторых случаях концентратор 305 умного дома может быть реализован в каждом из громкоговорителей 205а–m, которые функционируют параллельно с целью генерирования одинаковых обработанных звуковых сигналов из модуля 320. Согласно некоторым таким примерам, в каждом из громкоговорителей модуль 320 рендеринга затем может генерировать один или более сигналов, подаваемых на динамики, которые соответствуют каждому громкоговорителю или группе громкоговорителей, и может доставлять эти сигналы, подаваемые на динамики, в модуль динамической обработки каждого динамика.As shown by the arrows between the
В некоторых случаях громкоговорители 205a–205m могут содержать громкоговорители 205a–205h по фиг. 2, тогда как в других примерах громкоговорители 205a–205m могут представлять собой или содержать другие громкоговорители. Соответственно, в этом примере система 300 содержит M громкоговорителей, где M представляет собой целое число больше 2.In some cases,
В интеллектуальных динамиках, а также во многих других активных динамиках для предотвращения искажения динамиков обычно используется внутренняя динамическая обработка некоторого типа. С такой динамической обработкой часто связаны пороги ограничения сигналов (например, пороги ограничения, являющиеся переменными по частоте), ниже которых уровень сигнала поддерживается динамически. Например, такую обработку предоставляет Audio Regulator от Dolby, один из нескольких алгоритмов программного пакета постобработки аудиоданных Dolby Audio Processing (DAP). В некоторых случаях, но обычно не в случае модуля динамической обработки интеллектуального динамика, динамическая обработка также может включать применение одного или более компрессоров, вентилей, расширителей, дакеров и т. д.Smart speakers, as well as many other active speakers, typically use some type of internal dynamics processing to prevent speaker distortion. Associated with such dynamic processing are often signal clipping thresholds (eg, clipping thresholds that are frequency-variable), below which the signal level is maintained dynamically. For example, Dolby's Audio Regulator, one of several Dolby Audio Processing (DAP) audio post-processing software algorithms, provides such processing. In some cases, but not usually in the case of a smart speaker dynamics module, dynamics processing may also involve the use of one or more compressors, valves, expanders, duckers, etc.
Соответственно, в этом примере каждый из громкоговорителей 205а–205m содержит соответствующие модули А–М динамической обработки (dynamics processing, DP) динамика. Эти модули динамической обработки динамика выполнены с возможностью применения конфигурационных данных динамической обработки отдельных громкоговорителей для каждого отдельного громкоговорителя среды прослушивания. Модуль A DP динамика, например, выполнен с возможностью применения конфигурационных данных динамической обработки отдельных громкоговорителей, соответствующих громкоговорителю 205а. В некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут соответствовать одной или более функциональным возможностям отдельного громкоговорителя, таким как способность громкоговорителя воспроизводить аудиоданные в определенном диапазоне частот и на определенном уровне без значительного искажения.Accordingly, in this example, each of the
При выполнении рендеринга пространственных аудиоданных через набор разнородных динамиков (например, динамиков интеллектуальных звуковых устройств или динамиков, соединенных с интеллектуальными звуковыми устройствами), каждый из которых потенциально характеризуется разными ограничениями воспроизведения, необходимо тщательно следить за выполнением динамической обработки в отношении всего микширования. Простым решением является рендеринг пространственного микширования в сигналы, подаваемые на динамики для каждого из участвующих динамиков, а затем обеспечение возможности независимого функционирования модуля динамической обработки, связанного с каждым динамиком, в отношении соответствующего ему сигнала, подаваемого на динамик, в соответствии с ограничениями этого динамика.When rendering spatial audio data across a set of heterogeneous speakers (e.g., speakers of smart audio devices or speakers connected to smart audio devices), each with potentially different playback limitations, care must be taken to perform dynamics processing on the entire mix. A simple solution is to render the spatial mix into speaker signals for each of the participating speakers, and then allow the dynamics module associated with each speaker to operate independently with respect to its corresponding speaker signal, according to that speaker's constraints.
Несмотря на то, что данный подход будет предотвращать искажение каждого динамика, он может динамически сдвигать пространственный баланс микширования отвлекающим восприятие образом. Например, со ссылкой на фиг. 2 предположим, что телевизионная программа демонстрируется на телевизоре 230, и что соответствующие аудиоданные воспроизводятся громкоговорителями среды 200. Предположим, что в ходе телевизионной программы намечен рендеринг аудиоданных, связанных с неподвижным объектом (таким как единица тяжелой техники на заводе), в положение 244. Дополнительно предположим, что модуль динамической обработки, связанный с громкоговорителем 205d, понижает уровень аудиоданных в низкочастотном диапазоне в значительно большей степени, чем модуль динамической обработки, связанный с громкоговорителем 205b, вследствие существенно больших функциональных возможностей воспроизведения громкоговорителем 205b звуков в низкочастотном диапазоне. Если громкость сигнала, связанного с неподвижным объектом, колеблется, то, когда эта громкость становится выше, модуль динамической обработки, связанный с громкоговорителем 205d, будет вызывать понижение уровня аудиоданных в низкочастотном диапазоне в значительно большей степени, чем при понижении уровня тех же аудиоданных модулем динамической обработки, связанным с громкоговорителем 205b. Эта разность в уровнях будет вызывать изменение явного местоположения неподвижного объекта. Поэтому требуется усовершенствованное решение.While this approach will prevent distortion of each speaker, it can dynamically shift the spatial balance of the mix in a distracting way. For example, with reference to FIG. 2, suppose a television program is shown on
Некоторые варианты осуществления настоящего изобретения представляют собой системы и способы рендеринга (или рендеринга и воспроизведения) пространственного звукового микса (например, рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере одним (например, всеми или некоторыми) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств (например, набора скоординированных интеллектуальных звуковых устройств) и/или по меньшей мере одним (например, всеми или некоторыми) из динамиков другого набора динамиков. Некоторые варианты осуществления представляют собой способы (или системы) для такого рендеринга (например, включающего генерирование сигналов, подаваемых на динамики), а также воспроизведения подвергнутых рендерингу аудиоданных (например, воспроизведения сгенерированных сигналов, подаваемых на динамики). Примеры таких вариантов осуществления включают следующие. Some embodiments of the present invention are systems and methods for rendering (or rendering and playing) a spatial audio mix (e.g., rendering an audio data stream or multiple audio data streams) for playback by at least one (e.g., all or some) of the smart audio devices in a set of smart audio devices. audio devices (eg, a set of coordinated smart audio devices) and/or at least one (eg, all or some) of the speakers of another set of speakers. Some embodiments are methods (or systems) for such rendering (eg, including generating signals to speakers) as well as playback of rendered audio data (eg, playback of generated signals to speakers). Examples of such embodiments include the following.
Системы и способы для обработки аудиоданных могут включать рендеринг аудиоданных (например, рендеринг пространственного звукового микса, например, путем рендеринга потока аудиоданных или нескольких потоков аудиоданных) для воспроизведения по меньшей мере двумя динамиками (например, всеми или некоторыми из динамиков набора динамиков), что включает:Systems and methods for processing audio data may include rendering audio data (e.g., rendering a spatial audio mix, e.g., by rendering an audio data stream or multiple audio data streams) for playback by at least two speakers (e.g., all or some of the speakers in a set of speakers), which includes :
(a) комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей, (таких как пороги ограничения (пороги ограничения воспроизведения) отдельных громкоговорителей, посредством чего определяются конфигурационные данные динамической обработки среды прослушивания для множества громкоговорителей (такие как комбинированные пороги); (a) combining individual speaker dynamics processing configuration data (such as clipping thresholds (playback limiting thresholds) of individual speakers, whereby listening environment dynamics processing configuration data for a plurality of speakers (such as combined thresholds) is determined);
(b) выполнение динамической обработки в отношении аудиоданных (например, потока (потоков) аудиоданных, отражающих пространственный звуковой микс) с применением конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей (например, комбинированных порогов) с целью генерирования обработанных аудиоданных; и (b) performing dynamics processing on audio data (eg, audio data stream(s) reflecting a spatial audio mix) using listening environment dynamics configuration data for a plurality of speakers (eg, combined thresholds) to generate processed audio data; and
(c) рендеринг обработанных аудиоданных в сигналы, подаваемые на динамики.(c) rendering the processed audio data into signals fed to speakers.
Согласно некоторым реализациям этап (а) может выполняться таким модулем, как модуль 310 конфигурационных данных динамической обработки среды прослушивания, представленный на фиг. 3. Концентратор 305 умного дома может быть выполнен с возможностью получения через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из M громкоговорителей. В этой реализации конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым примерам, конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В этом примере каждый из наборов конфигурационных данных динамической обработки отдельных громкоговорителей содержит по меньшей мере один тип конфигурационных данных динамической обработки. В некоторых примерах концентратор 305 умного дома может быть выполнен с возможностью получения наборов конфигурационных данных динамической обработки отдельных громкоговорителей путем запроса каждого из громкоговорителей 205a–205m. В других реализациях концентратор 305 умного дома может быть выполнен с возможностью получения наборов конфигурационных данных динамической обработки отдельных громкоговорителей путем запроса структуры данных из ранее полученных наборов конфигурационных данных динамической обработки отдельных громкоговорителей, хранящихся в запоминающем устройстве.In some implementations, step (a) may be performed by a module such as the listening environment dynamic configuration
В некоторых примерах этап (b) может выполняться таким модулем, как модуль 315 динамической обработки среды прослушивания по фиг. 3. Ниже описаны некоторые подробные примеры этапов (а) и (b).In some examples, step (b) may be performed by a module such as the listening
В некоторых примерах рендеринг в соответствии с этапом (с) может выполняться таким модулем, как модуль 320 рендеринга или модуль 320’ рендеринга по фиг. 3. В некоторых вариантах осуществления обработка аудиоданных может включать:In some examples, rendering in accordance with step (c) may be performed by a module such as
(d) выполнение динамической обработки в отношении повергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя (например, ограничение сигналов, подаваемых на динамики, в соответствии с порогами ограничения воспроизведения, связанными с соответствующими динамиками, посредством чего генерируются ограниченные сигналы, подаваемые на динамики). Этап (d) может выполняться, например, модулями А–М динамической обработки, представленными на фиг. 3.(d) performing dynamics processing on rendered audio signals according to individual speaker dynamics configuration data for each speaker (e.g., clipping signals applied to speakers according to playback clipping thresholds associated with the respective speakers, whereby clipped signals to the speakers). Step (d) may be performed, for example, by the dynamics modules A-M shown in FIG. 3.
Динамики могут включать динамики по меньшей мере одного (например, всех или некоторых) из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств (или могут быть соединены по меньшей мере с одним из интеллектуальных звуковых устройств набора интеллектуальных звуковых устройств). В некоторых реализациях для генерирования ограниченных сигналов, подаваемых на динамики, на этапе (d) сигналы, подаваемые на динамики, сгенерированные на этапе (с), могут подвергаться обработке с помощью второго этапа динамической обработки (например, связанной с каждым динамиком системы динамической обработки), например, с целью генерирования сигналов, подаваемых на динамики, перед их окончательным воспроизведением через динамики. Например, сигналы, подаваемые на динамики (или их подмножество, или их часть), могут доставляться в систему динамической обработки каждого отдельного из динамиков (например, в подсистему динамической обработки интеллектуального звукового устройства, при этом интеллектуальное звуковое устройство содержит соответствующий один из динамиков или соединено с ним), и обработанные выходные аудиоданные из каждой указанной системы динамической обработки можно использовать для генерирования сигнала, подаваемого на динамик, для соответствующего одного из динамиков. После динамической обработки для конкретных динамиков (иначе говоря, динамической обработки, выполненной независимо для каждого из динамиков) обработанные (например, динамически ограниченные) сигналы, подаваемые на динамики, можно использовать для приведения в действие динамиков с целью воспроизведения звука. The speakers may include speakers from at least one (eg, all or some) of the smart sound devices in the smart sound device set (or may be connected to at least one of the smart sound devices in the smart sound device set). In some implementations, to generate limited speaker signals in step (d), the speaker signals generated in step (c) may be processed by a second dynamic processing step (e.g., a dynamics processing system associated with each speaker) , for example, to generate signals to the speakers before they are finally played back through the speakers. For example, signals applied to the speakers (or a subset or portion thereof) may be delivered to the dynamics processing system of each individual speaker (e.g., to the dynamics processing subsystem of an intelligent audio device, wherein the intelligent audio device comprises a corresponding one of the speakers or is connected with it), and the processed audio output from each of said dynamics processing systems can be used to generate a speaker signal for a corresponding one of the speakers. After speaker-specific dynamics processing (in other words, dynamics processing performed independently for each of the speakers), the processed (eg, dynamically clipped) signals applied to the speakers can be used to drive the speakers for sound reproduction.
Первый этап динамической обработки (на этапе (b)) может быть выполнен с возможностью уменьшения отвлекающего восприятие сдвига в пространственном балансе, который иначе возникал бы при пропуске этапов (а) и (b) и генерировании динамически обработанных (например, ограниченных) сигналов, подаваемых на громкоговоритель, которые возникают из этапа (d) в ответ на исходные аудиоданные (а не в ответ на обработанные аудиоданные, генерируемые на этапе (b)). Это может предотвратить нежелательный сдвиг в пространственном балансе микширования. Второй этап динамической обработки, действующий в отношении подвергнутых рендерингу сигналов, подаваемых на динамики, из этапа (с), может быть выполнен с возможностью обеспечения отсутствия искажений динамиков, так как динамическая обработка на этапе (b) необязательно может обеспечивать уменьшение уровней сигналов ниже порогов для всех громкоговорителей. Комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (например, комбинирование порогов на первом этапе (этап (а)) в некоторых примерах может задействовать (например, включать) этап усреднения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах) или взятие минимального значения конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения) в динамиках (например, в интеллектуальных звуковых устройствах).The first stage of dynamics processing (in step (b)) can be configured to reduce the distracting shift in spatial balance that would otherwise occur if steps (a) and (b) were skipped and dynamically processed (e.g., clipped) signals generated to the loudspeaker that arise from step (d) in response to the original audio data (rather than in response to the processed audio data generated in step (b)). This can prevent unwanted shifts in the spatial balance of the mix. The second dynamics processing step, operating on the rendered speaker signals from step (c), may be configured to ensure no speaker distortion, since the dynamics processing in step (b) may optionally reduce signal levels below thresholds for all speakers. Combining the individual speaker dynamics configuration data (e.g., combining the thresholds in the first step (step (a)) in some examples may involve (e.g., include) an averaging step of the individual speaker dynamics processing configuration data (e.g., clipping thresholds) in the speakers (e.g., in smart audio devices) or taking the minimum value of individual speaker dynamics processing configuration data (eg clipping thresholds) in speakers (eg in smart audio devices).
В некоторых реализациях, когда первый этап динамической обработки (на этапе (b)) действует в отношении аудиоданных, указывающих на пространственное микширование (например, аудиоданные звуковой программы на основе объектов, содержащей по меньшей мире один канал объектов, а также, необязательно, по меньшей мере один канал динамика), этот первый этап можно реализовать в соответствии с техническим решением для обработки звуковых объектов путем использования пространственных зон. В этом случае комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, комбинированные пороги ограничения), связанные с каждой из зон, можно получить с помощью (или в виде) взвешенного среднего конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения отдельных динамиков), и эта весовая обработка может быть предоставлена или определена по меньшей мере частично посредством пространственной близости каждого динамика к зоне и/или положения в зоне.In some implementations, when the first stage of dynamics processing (in step (b)) operates on audio data indicative of spatial mixing (e.g., audio data of an object-based audio program containing at least one object channel in the world, and optionally at least at least one speaker channel), this first step can be implemented in accordance with the technical solution for processing audio objects by using spatial zones. In this case, the combined individual speaker dynamics configuration data (e.g., combined clipping thresholds) associated with each of the zones can be obtained using (or as) a weighted average of the individual speaker dynamics configuration data (e.g., individual speaker clipping thresholds), and this weighting may be provided or determined at least in part by each speaker's spatial proximity to the zone and/or position within the zone.
В иллюстративном варианте осуществления предполагается множество из M динамиков (), в котором каждый динамик индексирован с помощью переменной i. С каждым динамиком i связан набор переменных по частоте порогов ограничения воспроизведения, , где переменная f отображает индекс в конечное множество частот, при которых определены эти пороги. (Следует отметить, что если размер множества частот равен единице, то соответствующий единственный порог можно считать широкополосным, применимым по всему диапазону частот). Эти пороги используются каждым динамиком в его собственной, независимой функции динамической обработки для ограничения звукового сигнала ниже порогов для конкретной цели, такой как предотвращение искажения динамика или воспроизведения динамиком за пределами некоторого уровня, который считается недопустимым вблизи него.In an exemplary embodiment, a set of M speakers is assumed ( ) in which each speaker is indexed by the variable i . Each speaker i is associated with a set of variables for the frequency of playback limitation thresholds, , where the variable f maps the index to a finite set of frequencies at which these thresholds are defined. (It should be noted that if the size of the set of frequencies is equal to one, then the corresponding single threshold can be considered wideband, applicable over the entire frequency range). These thresholds are used by each speaker in its own independent dynamics processing function to limit the audio signal below the thresholds. for a specific purpose, such as preventing speaker distortion or speaker playback beyond some level that is considered unacceptable in its vicinity.
На фиг. 4A, 4B и 4C представлены примеры порогов ограничения воспроизведения и соответствующие частоты. Например, представленный диапазон частот может охватывать диапазон частот, слышимых обычным человеком (например, от 20 Гц до 20 кГц). В этих примерах пороги ограничения воспроизведения указаны вертикальными осями графиков 400a, 400b и 400c, которые в этих примерах обозначены как «Порог уровня». Пороги ограничения/уровня воспроизведения увеличиваются в направлении стрелок на вертикальных осях. Пороги ограничения/уровня воспроизведения могут быть выражены, например, в децибелах. В этих примерах горизонтальные оси графиков 400a, 400b и 400c указывают частоты, которые увеличиваются в направлении стрелок на горизонтальных осях. Пороги ограничения воспроизведения, указанные кривыми 400a, 400b и 400c, могут быть реализованы, например, модулями динамической обработки отдельных громкоговорителей.In FIG. 4A, 4B and 4C show examples of playback clipping thresholds and corresponding frequencies. For example, the presented frequency range may cover the range of frequencies audible to the average person (eg, 20 Hz to 20 kHz). In these examples, playback limit thresholds are indicated by the vertical axes of
На графике 400a по фиг. 4А представлен первый пример порога ограничения воспроизведения в зависимости от частоты. Кривая 405a указывает порог ограничения воспроизведения для каждого соответствующего значения частоты. В этом примере при низкой частоте fb входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на выходном уровне To. Например, низкая частота fb может находиться в диапазоне от 60 до 250 Гц. Однако в этом примере на высокой частоте fb входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на том же уровне, входном уровне Ti. Например, высокая частота fb может находиться в диапазоне выше 1280 Гц. Соответственно, в этом примере кривая 405а соответствует модулю динамической обработки, который применяет для низких частот значительно более низкий порог, чем для верхних частот. Такой модуль динамической обработки может подходить для громкоговорителя, не содержащего низкочастотный динамик (например, для громкоговорителя 205d по фиг. 2).In
На графике 400b по фиг. 4В представлен второй пример порога ограничения воспроизведения в зависимости от частоты. Кривая 405b указывает, что на такой же низкой частоте fb, представленной на фиг. 4А, входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на более высоком выходном уровне To. Соответственно, в этом примере кривая 405b соответствует модулю динамической обработки, который не применяет для низких частот такой же низкий порог, как кривая 405a. Такой модуль динамической обработки может подходить для громкоговорителя, содержащего по меньшей мере небольшой низкочастотный динамик (например, для громкоговорителя 205b по фиг. 2).In
На графике 400c по фиг. 4С представлен второй пример порога ограничения воспроизведения в зависимости от частоты. Кривая 405c (которая в этом примере представляет собой прямую линию) указывает, что на такой же низкой частоте fb, представленной на фиг. 4А, входные аудиоданные, принятые на входном уровне Ti, будут выводиться модулем динамической обработки на том же уровне. Соответственно, в этом примере кривая 405c соответствует модулю динамической обработки, который может подходить для громкоговорителя, способного воспроизводить широкий диапазон частот, в том числе низких частот. Можно наблюдать, что для простоты модуль динамической обработки может аппроксимировать кривую 405с путем реализации кривой 405d, которая применяет одинаковый порог для всех указанных частот.In
Пространственный звуковой микс может подвергаться рендерингу для множества динамиков с использованием известной системы рендеринга, такой как «Амплитудное панорамирование центра масс» (CMAP) или «Гибкая виртуализация» (FV). Для составных частей пространственного звукового микса система рендеринга генерирует сигналы, подаваемые на динамики, по одному для каждого из множества динамиков. В некоторых предыдущих примерах сигналы, подаваемые на динамики, затем независимо обрабатывались связанной с каждым динамиком функцией динамической обработки с использованием порогов . В отсутствие преимуществ настоящего изобретения, этот описанный сценарий рендеринга может приводить к отвлекающим сдвигам в воспринимаемом пространственном балансе подвергнутого рендерингу пространственного звукового микса. Например, один из M динамиков, предположим на правой стороне области прослушивания, может быть менее функциональным, чем другие (например, при рендеринге аудиоданных в низкочастотном диапазоне), и поэтому пороги для этого динамика могут быть значительно более низкими, чем те, что для других динамиков, по меньшей мере в конкретном диапазоне частот. В ходе воспроизведения модуль динамической обработки этого динамика будут понижать уровень составляющих пространственного микширования на правой стороне в значительно большей степени, чем составляющих на левой стороне. Слушатели являются чрезвычайно чувствительными к таким динамическим сдвигам между левым/правым балансом пространственного микширования и могут находить результаты весьма отвлекающими.The spatial audio mix can be rendered for multiple speakers using a known rendering system such as Center of Mass Amplitude Panning (CMAP) or Flexible Virtualization (FV). For the component parts of the spatial audio mix, the rendering system generates signals to the speakers, one for each of the multiple speakers. In some of the previous examples, the signals applied to the speakers were then independently processed by the dynamics processing function associated with each speaker using thresholds. . In the absence of the benefits of the present invention, this described rendering scenario can lead to distracting shifts in the perceived spatial balance of the rendered spatial audio mix. For example, one of the M speakers, let's say on the right side of the listening area, may be less functional than the others (for example, when rendering audio data in the low frequency range), and therefore the thresholds for this, the speakers can be significantly lower than those for other speakers, at least in a particular frequency range. During playback, the dynamics processing module of this speaker will lower the level of the spatial mixing components on the right side to a much greater extent than the components on the left side. Listeners are extremely sensitive to such dynamic shifts between left/right spatial mixing balance and may find the results quite distracting.
Для решения этой проблемы, в некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) для отдельных динамиков среды прослушивания комбинируются с целью создания конфигурационных данных динамической обработки среды прослушивания для всех громкоговорителей среды прослушивания. Конфигурационные данные динамической обработки среды прослушивания можно затем использовать для выполнения начальной динамической обработки в контексте всего пространственного звукового микса перед его рендерингом в сигналы, подаваемые на динамики. Так как этот первый этап динамической обработки имеет доступ ко всему пространственному микшированию, в отличие от одного независимого сигнала, подаваемого на динамик, обработка может выполняться способами, которые не придают отвлекающие сдвиги воспринимаемому пространственному балансу микширования. Конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) могут комбинироваться способом, который исключает или уменьшает объем динамической обработки, выполняемой с помощью любой из независимых функций динамической обработки отдельных динамиков.To solve this problem, in some examples, individual speaker dynamics configuration data (eg, play limit thresholds) for individual listening environment speakers are combined to create listening environment dynamics configuration data for all listening environment speakers. The listening environment dynamics processing configuration data can then be used to perform initial dynamics processing in the context of the entire spatial audio mix before it is rendered into signals fed to the speakers. Since this first stage of dynamics processing has access to the entire spatial mix, as opposed to a single independent signal fed to the speaker, the processing can be performed in ways that do not impart distracting shifts to the perceived spatial balance of the mix. Individual speaker dynamics processing configuration data (eg, playback clipping thresholds) may be combined in a manner that eliminates or reduces the amount of dynamics processing performed by any of the independent individual speaker dynamics processing functions.
В одном примере определения конфигурационных данных динамической обработки среды прослушивания конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) для отдельных динамиков могут комбинироваться в единый набор конфигурационных данных динамической обработки среды прослушивания (например, переменных по частоте порогов ограничения воспроизведения ), которые применяются ко всем составляющим пространственного микширования на первом этапе динамической обработки. Согласно некоторым таким примерам, так как ограничение является одинаковым в отношении всех составляющих, пространственный баланс микширования может сохраняться. Одним способом комбинирования конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения воспроизведения) является взятие минимального значения по всем динамикам i:In one example of defining listening environment dynamics configuration data, individual speaker dynamics configuration data (e.g., playback clipping thresholds) for individual speakers can be combined into a single listening environment dynamics configuration data set (e.g., frequency-variable playback clipping thresholds). ) that are applied to all spatial mixing components in the first stage of dynamics processing. According to some such examples, since the constraint is the same for all components, the spatial balance of the mix can be maintained. One way to combine individual speaker dynamics processing configuration data (for example, playback clipping thresholds) is to take the minimum value across all speakers i :
Такое комбинирование по существу исключает операцию динамической обработки каждого отдельного динамика, так как пространственное микширование сначала ограничивается ниже порога наименее функционального динамика на каждой частоте. Однако такая стратегия может являться излишне агрессивной. Многие динамики могут выполнять воспроизведение на уровне ниже их функциональных возможностей, и комбинированный уровень воспроизведения всех динамиков может являться недопустимо низким. Например, при применении порогов в низкочастотном диапазоне, представленном на фиг. 4А, к громкоговорителю, соответствующему порогам для фиг. 4С, уровень воспроизведения последнего динамика в низкочастотном диапазоне будет излишне низким. Альтернативным комбинированием определения конфигурационных данных динамической обработки среды прослушивания является взятие среднего (усреднение) конфигурационных данных динамической обработки отдельных громкоговорителей по всем динамикам среды прослушивания. Например, в контексте порогов ограничения воспроизведения это среднее можно определить следующим образом:Such a combination essentially eliminates the operation of dynamic processing of each individual speaker, since the spatial mixing is first limited below the threshold of the least functional speaker at each frequency. However, this strategy may be overly aggressive. Many speakers may play at a level below their capability, and the combined playback level of all speakers may be unacceptably low. For example, when applying thresholds in the low frequency range shown in FIG. 4A to a loudspeaker corresponding to the thresholds for FIG. 4C, the reproduction level of the last speaker in the low frequency range will be unnecessarily low. An alternative combination of determining the listening environment dynamic processing configuration data is to take an average (averaging) of the individual speaker dynamics processing configuration data over all the listening environment speakers. For example, in the context of playback restriction thresholds, this average can be defined as follows:
При таком комбинировании общий уровень воспроизведения может повышаться по сравнению с взятием минимального значения, так как первый этап динамической обработки выполняет ограничение до более высокого уровня и, таким образом, обеспечивает возможность более громкого воспроизведения динамиками с большими функциональными возможностями. Для динамиков, индивидуальные пороги ограничения которых находятся ниже среднего, их независимые функции динамической обработки при необходимости могут по-прежнему ограничивать связанный с ними сигнал, подаваемый на динамик. Однако первый этап динамической обработки, вероятно, будет снижать потребности в этом ограничении, так как некоторое начальное ограничение было выполнено в отношении пространственного микширования.With this combination, the overall playback level can be increased compared to taking the minimum value, since the first stage of dynamics processing clips to a higher level and thus allows louder playback by speakers with more functionality. For speakers whose individual clipping thresholds are below average, their independent dynamics processing functions may still clip their associated signal delivered to the speaker if necessary. However, the first stage of dynamic processing is likely to reduce the need for this constraint, since some initial constraint has been made on the spatial mixing.
Согласно некоторым примерам определения конфигурационных данных динамической обработки среды прослушивания, можно создать перестраиваемую комбинацию, с интерполяцией между минимальным и средним значениями конфигурационных данных динамической обработки отдельных громкоговорителей с помощью параметра настройки . Например, в контексте порогов ограничения воспроизведения эту интерполяцию можно определить следующим образом:According to some examples of determining the dynamics processing configuration data of the listening environment, it is possible to create a tunable combination, with interpolation between the minimum and average values of the dynamics processing configuration data of individual speakers using the tuning parameter . For example, in the context of playback limit thresholds, this interpolation can be defined as follows:
Возможны и другие комбинации конфигурационных данных динамической обработки отдельных громкоговорителей, и подразумевается, что настоящее изобретение охватывает все такие комбинации.Other combinations of individual speaker dynamics configuration data are possible, and the present invention is intended to cover all such combinations.
На фиг. 5А и 5В представлены графики, на которых показаны примеры данных сжатия динамического диапазона. На графиках 500a и 500b уровни входного сигнала в децибелах представлены на горизонтальных осях, и уровни выходного сигнала в децибелах представлены на вертикальных осях. Как и в других раскрытых примерах, конкретные пороги, коэффициенты и другие величины представлены лишь в качестве примера и не являются ограничивающими.In FIG. 5A and 5B are graphs showing examples of dynamic range compression data. In
В примере, представленном на фиг. 5А, уровень выходного сигнала равен уровню входного сигнала ниже порога, который в данном примере равен -10 дБ. Другие примеры могут включать разные пороги, например, -20 дБ, -18 дБ, -16 дБ, -14 дБ, -12 дБ, -8 дБ, -6 дБ, -4 дБ, -2 дБ, 0 дБ, 2 дБ, 4 дБ, 6 дБ и т. д. Выше порога представлены различные примеры коэффициентов сжатия. Коэффициент N:1 означает, что выше порога уровень выходного сигнала будет повышаться на 1 дБ для каждого повышения на N дБ во входном сигнале. Например, коэффициент сжатия 10:1 (линия 505е) означает, что выше порога уровень выходного сигнала будет повышаться лишь на 1 дБ для каждого повышения на 10 дБ во входном сигнале. Коэффициент сжатия 1:1 (линия 505a) означает, что уровень выходного сигнала по-прежнему равен уровню входного сигнала даже выше порога. Линии 505b, 505c и 505d соответствуют коэффициентам сжатия 3:2, 2:1 и 5:1. В других реализациях могут быть предусмотрены другие коэффициенты сжатия, такие как 2.5:1, 3:1, 3.5:1, 4:3, 4:1 и т. д.In the example shown in FIG. 5A, the output signal level is equal to the input signal level below the threshold, which in this example is -10 dB. Other examples may include different thresholds, e.g. -20 dB, -18 dB, -16 dB, -14 dB, -12 dB, -8 dB, -6 dB, -4 dB, -2 dB, 0 dB, 2 dB , 4 dB, 6 dB, etc. Above the threshold, various examples of compression ratios are presented. A factor of N :1 means that above the threshold, the output level will rise by 1 dB for every N dB increase in the input signal. For example, a compression ratio of 10:1 (
На фиг. 5В представлены примеры «загибов», которые управляют изменением коэффициента сжатия при или вблизи порога, который в данном примере равен 0 дБ. Согласно данному примеру, кривая сжатия, содержащая «жесткий» загиб, состоит из двух прямолинейных сегментов, линейного сегмента 510а до порога и линейного сегмента 510b выше порога. Жесткий загиб можно проще реализовать, однако он может вызывать артефакты.In FIG. 5B shows examples of "knees" that control the change in compression ratio at or near a threshold, which in this example is 0 dB. According to this example, the compression curve containing a "hard" bend consists of two straight segments, a
На фиг. 5В также представлен один пример «мягкого» загиба. В этом примере мягкий загиб охватывает 10 дБ. Согласно данной реализации, выше и ниже охвата в 10 дБ коэффициенты сжатия кривой сжатия, содержащей мягкий загиб, являются такими же, как те, что у кривой сжатия, содержащей жесткий загиб. В других реализациях могут предоставляться различные другие формы «мягких» загибов, которые могут охватывать большее или меньшее количество децибел, что может указывать на другой коэффициент сжатия выше охвата, и т. д.In FIG. 5B also shows one example of a "soft" fold. In this example, the soft bend spans 10 dB. According to this implementation, above and below 10 dB coverage, the compression ratios of a compression curve containing a soft kink are the same as those of a compression curve containing a hard kink. In other implementations, various other forms of "soft" bends may be provided, which may span more or less decibels, which may indicate a different compression ratio above coverage, etc.
Другие типы данных сжатия динамического диапазона могут включать данные «нарастания » и данные «ослабления». «Нарастание» представляет собой период, в течение которого компрессор уменьшает коэффициент усиления, например, в ответ на повышенный уровень на входе с целью достижения коэффициента усиления, определяемого коэффициентом сжатия. Время нарастания для компрессоров обычно находится в диапазоне от 25 миллисекунд до 500 миллисекунд, хотя возможно и другое время нарастания. «Ослабление» представляет собой период, в течение которого компрессор увеличивает коэффициент усиления, например, в ответ на пониженный уровень на входе с целью достижения выходного коэффициента усиления, определяемого коэффициентом сжатия (или входного уровня, если входной уровень упал ниже порога). Например, время ослабления может находиться в диапазоне от 25 миллисекунд до 2 секунд.Other types of dynamic range compression data may include rise-up data and fade-out data. "Rise" is the period during which the compressor reduces the gain, for example in response to an increased input level, in order to achieve the gain determined by the compression ratio. The rise time for compressors typically ranges from 25 milliseconds to 500 milliseconds, although other rise times are possible. "Cutoff" is the period during which the compressor increases the gain, for example, in response to a reduced input level, in order to reach the output gain determined by the compression ratio (or the input level if the input level falls below a threshold). For example, the decay time may be in the range of 25 milliseconds to 2 seconds.
Соответственно, в некоторых примерах конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. Набор данных сжатия динамического диапазона может содержать данные порогов, данные отношения уровней входного и выходного сигналов, данные нарастания, данные ослабления и/или данные загиба. Один или более из этих типов конфигурационных данных динамической обработки отдельных громкоговорителей можно комбинировать для определения конфигурационных данных динамической обработки среды прослушивания. Как отмечено выше в отношении комбинирования порогов ограничения воспроизведения, в некоторых примерах для определения конфигурационных данных динамической обработки среды прослушивания данные сжатия динамического диапазона можно усреднить. В некоторых случаях для определения конфигурационных данных динамической обработки среды прослушивания можно использовать минимальное или максимальное значение данных сжатия динамического диапазона (например, максимальный коэффициент сжатия). В других реализациях можно создать перестраиваемую комбинацию с интерполяцией между минимальным и средним значениями данных сжатия динамического диапазона для динамической обработки отдельных громкоговорителей, например, с помощью такого параметра настройки, как параметр, описанный выше со ссылкой на уравнение (3).Accordingly, in some examples, the individual speaker dynamics processing configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. The dynamic range compression dataset may contain threshold data, input-to-output ratio data, rise data, attenuation data, and/or knee data. One or more of these types of individual speaker dynamics processing configuration data can be combined to define the listening environment dynamics processing configuration data. As noted above with respect to combining playback clipping thresholds, in some examples, dynamic range compression data may be averaged to determine the listening environment dynamic processing configuration data. In some cases, the minimum or maximum value of the dynamic range compression data (eg, maximum compression ratio) can be used to determine the dynamic processing configuration data of the listening environment. In other implementations, it is possible to create a tunable combination with interpolation between the minimum and average values of the dynamic range compression data for dynamic processing of individual speakers, for example, using a tuning parameter such as the parameter described above with reference to equation (3).
В некоторых вышеописанных примерах на первом этапе динамической обработки ко всем составляющим пространственного микширования применяется один набор конфигурационных данных динамической обработки среды прослушивания (например, один набор комбинированных порогов, ). Такие реализации могут сохранять пространственный баланс микширования, но вызывать другие нежелательные артефакты. Например, когда очень громкая часть пространственного микширования в выделенной области пространства вызывает снижение уровня всего микширования, может возникать «пространственное приглушение». Другие, более мягкие составляющие микширования, отдаленные в пространстве от этой громкой составляющей, могут восприниматься как становящиеся неестественно мягкими. Например, мягкая фоновая музыка может воспроизводиться в окружающем поле пространственного микширования на уровне ниже комбинированных порогов, , и поэтому на первом этапе динамической обработки не выполняется никакое ограничение пространственного микширования. Затем спереди пространственного микширования (например, на экране в случае звуковой дорожки фильма) мгновенно вводится громкий выстрел, и общий уровень микширования превышает комбинированные пороги. В этот момент первый этап динамической обработки понижает уровень всего микширования ниже порогов Так как музыка пространственно отделена от выстрела, она может восприниматься в непрерывном потоке музыки как неестественно приглушенная.In some of the above examples, in the first stage of dynamics processing, one set of listening environment dynamics processing configuration data is applied to all spatial mixing components (e.g., one set of combined thresholds, ). Such implementations may maintain the spatial balance of the mix, but introduce other undesirable artifacts. For example, when a very loud portion of a spatial mix in a selected region of space causes the overall mix to be lowered, "spatial muting" may occur. Other softer parts of the mix that are spaced apart from this loud part can be perceived as becoming unnaturally soft. For example, soft background music may be played in an ambient spatial mixing field at a level below the combined thresholds, , and therefore no spatial mixing constraint is performed in the first stage of dynamics processing. Then, in front of the spatial mix (for example, on the screen in the case of a movie soundtrack), a loud shot is instantly introduced, and the overall mix level exceeds the combined thresholds. At this point, the first stage of dynamics processing lowers the level of the entire mix below the thresholds. Since the music is spatially separated from the shot, it can be perceived as unnaturally muffled in a continuous stream of music.
Для решения этих проблем в некоторых реализациях обеспечивается возможность независимой или частично независимой динамической обработки в отношении разных «пространственных зон» пространственного микширования. Пространственную зону можно считать подмножеством области пространства, в отношении которой выполняется рендеринг всего пространственного микширования. И хотя в большей части следующего обсуждения предоставлены примеры динамической обработки на основе порогов ограничения воспроизведения, эта концепция в равной мере применима к конфигурационным данным динамической обработки отдельных громкоговорителей и конфигурационным данным динамической обработки среды прослушивания других типов.To address these issues, some implementations allow independent or partially independent dynamics processing with respect to different "spatial zones" of the spatial mixing. A spatial region can be thought of as a subset of the region of space against which the entire spatial mixing is rendered. While much of the following discussion provides examples of dynamics based on playback clipping thresholds, the concept is equally applicable to individual speaker dynamics configuration data and other types of listening environment dynamics configuration data.
На фиг. 6 представлен пример пространственных зон среды прослушивания. На фиг. 6 изображен пример области пространственного микширования (представленного целым квадратом), подразделенным на три пространственные зоны: Переднюю, Центральную и Окружающую.In FIG. 6 shows an example of the spatial zones of the listening environment. In FIG. 6 shows an example of a spatial mixing area (represented by a whole square) subdivided into three spatial zones: Front, Center and Surround.
Несмотря на то, что зоны на фиг. 6 изображены с жесткими границами, на практике преимущественной является интерпретация перехода от одной пространственной зоны к другой как непрерывного. Например, составляющая пространственного микширования, расположенная в середине левой границы квадрата, может содержать половину ее уровня, отнесенную к передней зоне, и половину — к окружающей зоне. Таким непрерывным образом можно отнести и накопить уровень сигнала от каждой составляющей пространственного микширования в каждой из пространственных зон. Тогда функция динамической обработки может функционировать независимо для каждой пространственной зоны в отношении общего уровня сигнала, отнесенного к ней из микширования. Тогда для каждой составляющей пространственного микширования можно комбинировать и применять к этой составляющей результаты динамической обработки на основе каждой пространственной зоны (например, переменные во времени коэффициенты усиления по частоте). В некоторых примерах результаты такого комбинирования пространственных зон отличаются для каждой составляющей и зависят от отнесения данной конкретной составляющей к каждой зоне. Конечным результатом является то, что составляющие пространственного микширования с подобными отнесениями к пространственным зонам получают подобную динамическую обработку, однако допускается независимость между пространственными зонами. Пространственные зоны можно преимущественно выбрать так, чтобы предотвратить нежелательные пространственные сдвиги, такие как нарушение баланса слева/справа, и, в то же время, обеспечить возможность некоторой пространственно независимой обработки (например, подавления других артефактов, таких как описанное пространственное приглушение). Although the zones in FIG. 6 are depicted with rigid boundaries, in practice it is preferable to interpret the transition from one spatial zone to another as continuous. For example, a spatial mixing component located in the middle of the left border of a square may contain half of its level related to the front zone and half to the surrounding zone. In this way, the signal level from each component of the spatial mixing in each of the spatial zones can be attributed and accumulated in a continuous manner. The dynamics processing function can then operate independently for each spatial region with respect to the overall signal level assigned to it from the mix. Then, for each spatial mixing component, the results of dynamic processing based on each spatial zone (eg, time-varying frequency gains) can be combined and applied to that component. In some examples, the results of such a combination of spatial zones are different for each component and depend on the assignment of this particular component to each zone. The end result is that spatial mixing components with similar spatial zone assignments receive similar dynamic processing, but independence between spatial zones is allowed. The spatial zones can advantageously be chosen to prevent unwanted spatial shifts, such as left/right imbalance, while at the same time allowing for some spatially independent processing (eg, suppression of other artifacts such as the described spatial muting).
Технические решения для обработки пространственного микширования с помощью пространственных зон можно преимущественно использовать на первом этапе динамической обработки согласно настоящему изобретению. Например, для каждой пространственной зоны можно вычислить различную комбинацию конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения воспроизведения) в динамиках i. Набор комбинированных порогов зон можно представить в виде , где индекс j относится к одной из множества пространственных зон. Модуль динамической обработки может действовать независимо в отношении каждой пространственной зоны со связанными с ней порогами , и результаты можно обратно применить в отношении составных частей пространственного микширования согласно вышеописанному техническому решению.The technical solutions for spatial mixing processing using spatial zones can advantageously be used in the first stage of dynamic processing according to the present invention. For example, for each spatial zone, a different combination of individual speaker dynamics processing configuration data (eg, play limit thresholds) in speakers i can be computed. The set of combined zone thresholds can be represented as , where the index j refers to one of the many spatial zones. The dynamic processing module can act independently on each spatial zone with its associated thresholds , and the results can be applied back to the components of the spatial mixing according to the above technical solution.
Рассмотрим подвергаемый рендерингу пространственный сигнал как состоящий из К отдельных составляющих сигналов , каждый из которых связан с требуемым пространственным положением (возможно, переменным во времени). Одним конкретным способом реализации обработки зон является вычисление переменных во времени коэффициентов усиления при панорамировании, , которые описывают, какая доля каждого звукового сигнала вносит вклад в зону j в зависимости от требуемого пространственного положения звукового сигнала относительно положения зоны. Эти коэффициенты усиления при панорамировании преимущественно могут быть предназначены для следования закону сохранения энергии при панорамировании, который требует, чтобы сумма квадратов этих коэффициентов усиления была равна единице. На основе этих коэффициентов усиления при панорамировании сигналы зоны, , можно вычислить как сумму составляющих сигналов, подвергнутых весовой обработке с помощью их коэффициента усиления при панорамировании для данной зоны:Consider the rendered spatial signal as consisting of K separate component signals , each of which is associated with a desired spatial position (possibly variable in time). One particular way to implement zone processing is to compute time-varying pan gains, , which describe how much of each audio signal contributes to the zone j depending on the desired spatial position of the audio signal relative to the position of the zone. These panning gains can advantageously be designed to follow the law of conservation of energy in panning, which requires that the sum of the squares of these panning gains be equal to one. Based on these pan gains, zone signals, , can be computed as the sum of the signal components weighted by their pan gain for a given zone:
Сигнал каждой зоны может затем обрабатываться независимо функцией DP динамической обработки, параметризованной порогами зон, , для получения переменных по частоте и во времени модифицированных коэффициентов усиления зон, G j :Signal of each zone can then be processed independently by the dynamic processing DP function parameterized by the zone thresholds, , to obtain frequency and time variables of the modified zone gains, G j :
Затем путем комбинирования модифицированных коэффициентов усиления зон пропорционально коэффициентам усиления при панорамировании этого сигнала для зон, , можно вычислить переменные по частоте и во времени модифицированные коэффициенты усиления для каждого отдельного составляющего сигнала:Then, by combining the modified zone gains in proportion to the panning gains of that signal for the zones, , you can calculate the frequency and time-varying modified gains for each individual component signal:
Эти модифицированные коэффициенты усиления сигнала, G k , можно затем применить к каждому составляющему сигналу, например, с использованием банка фильтров, с целью получения подвергнутых динамической обработке составляющих сигналов, , которые могут затем подвергаться рендерингу в сигналы динамиков. These modified signal gains, G k , can then be applied to each component signal, for example using a filter bank, to obtain dynamically processed component signals, , which can then be rendered into speaker signals.
Комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей (таких, как пороги ограничения воспроизведения динамиков) для каждой пространственной зоны можно выполнить множеством способов. В качестве одного примера пороги ограничения воспроизведения пространственных зон можно вычислить как взвешенную сумму порогов ограничения воспроизведения динамиков с использованием зависящей от пространственных зон и динамиков весовой обработки : Combining individual speaker dynamics processing configuration data (such as speaker clipping thresholds) for each spatial zone can be done in a variety of ways. As one example, spatial zone reproduction limitation thresholds can be computed as the weighted sum of speaker playback limit thresholds using space- and speaker-dependent weighting :
Аналогичные функции весовой обработки можно применять к другим типам конфигурационных данных динамической обработки отдельных громкоговорителей. Преимущественно комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) пространственной зоны можно сместить к конфигурационным данным динамической обработки отдельных громкоговорителей (например, порогам ограничения воспроизведения) для динамиков, наиболее ответственных за воспроизведение компонентов пространственного микширования, связанных с этой пространственной зоной. Этого можно достичь путем задания весовых коэффициентов в зависимости от ответственности каждого динамика за рендеринг составляющих пространственного микширования, связанных с этой зоной, для частоты f.Similar weighting functions can be applied to other types of individual speaker dynamics processing configuration data. Advantageously, the combined individual speaker dynamics configuration data (e.g., playback clipping thresholds) of a spatial area can be shifted to the individual speaker dynamics configuration data (e.g., playback clipping thresholds) for the speakers most responsible for reproducing the spatial mixing components associated with that spatial zone. This can be achieved by setting the weighting factors depending on the responsibility of each speaker for rendering the spatial mixing components associated with that zone, for frequency f .
На фиг. 7 представлены примеры громкоговорителей в пространственных зонах по фиг. 6. На фиг. 7 изображены такие же зоны, как на фиг. 6, но с наложенными на них местоположениями пяти иллюстративных громкоговорителей (динамиков 1, 2, 3, 4 и 5), ответственных за рендеринг пространственного микширования. В этом примере громкоговорители 1, 2, 3, 4 и 5 представлены ромбами. В данном конкретном примере динамик 1 в наибольшей степени отвечает за рендеринг центральной зоны, динамики 2 и 5 за рендеринг передней зоны и динамики 3 и 4 за рендеринг окружающей зоны. Можно создать весовые коэффициенты на основе этого условного однозначного отображения динамиков в пространственные зоны, но, как и в случае обработки пространственного микширования на основе пространственных зон, предпочтительным может являться более непрерывное отображение. Например, динамик 4 находится весьма близко к передней зоне, и составляющая звукового микса, расположенная между динамиками 4 и 5 (хотя и в условно передней зоне), вероятно, в наибольшей степени будет воспроизводиться комбинацией динамиков 4 и 5. Поэтому имеет смысл внесение вклада конфигурационных данных динамической обработки отдельных громкоговорителей (например, порогов ограничения воспроизведения) динамика 4 в комбинированные конфигурационные данные динамической обработки отдельных громкоговорителей (например, пороги ограничения воспроизведения) передней зоны, а также окружающей зоны. In FIG. 7 shows examples of loudspeakers in the spatial zones of FIG. 6. In FIG. 7 shows the same zones as in Fig. 6, but superimposed with the locations of five exemplary speakers (
Одним способом достижения этого непрерывного отображения является приравнивание весовых коэффициентов значению участия динамика, описывающему относительный вклад каждого динамика i в рендеринг составляющих, связанных с пространственной зоной j. Эти значения можно получить непосредственно из системы рендеринга, ответственной за рендеринг в динамиках (например, из вышеописанного этапа (с)), и набора из одного или более номинальных пространственных положений, связанных с каждой пространственной зоной. Этот набор номинальных пространственных положений может включать набор положений в каждой пространственной зоне.One way to achieve this continuous mapping is to equate the weights a speaker contribution value describing the relative contribution of each speaker i to the rendering of the components associated with the spatial area j . These values can be obtained directly from the rendering system responsible for rendering in dynamics (eg, from step (c) above) and a set of one or more nominal spatial positions associated with each spatial region. This set of nominal spatial positions may include a set of positions in each spatial zone.
На фиг. 8 представлен пример номинальных пространственных положений, наложенных на пространственные зоны и динамики по фиг. 7. Номинальные положения указаны с помощью пронумерованных кругов: с передней зоной связаны два положения, расположенные в верхних углах квадрата, с центральной зоной связано единственное положение в верхней средней части квадрата, и с окружающей зоной связаны два положения в нижних углах квадрата.In FIG. 8 shows an example of nominal spatial positions superimposed on the spatial zones and dynamics of FIG. 7. Nominal positions are indicated using numbered circles: the front zone has two positions associated at the top corners of the square, the central zone has a single position associated at the top middle of the square, and the surrounding zone has two positions associated at the bottom corners of the square.
С целью вычисления значения участия динамика для пространственной зоны, каждое из номинальный положений, связанных с этой зоной, может быть подвергнуто рендерингу с помощью средства рендеринга с целью генерирования значений активации динамиков, связанных с этим положением. Эти значения активации могут представлять собой, например, коэффициент усиления для каждого динамика в случае CMAP или комплексное значение на заданной частоте для каждого динамика в случае FV. Затем для каждого динамика и зоны эти значения активации можно накопить для каждого из номинальных положений, связанных с пространственной зоной для получения значения . Это значение представляет общее значение активации динамика i для рендеринга всего набора номинальных положений, связанных с пространственной зоной j. Наконец, значение участия динамика в пространственной зоне можно вычислить как накопленное значение активации, , нормализованное на сумму всех этих накопленных значений активации для динамиков. Затем весовые коэффициенты можно приблизить к этому значению участия динамика:In order to compute a speaker engagement value for a spatial area, each of the nominal positions associated with that area may be rendered by a renderer to generate speaker activation values associated with that location. These activation values may be, for example, the gain for each speaker in the case of CMAP, or the complex value at a given frequency for each speaker in the case of FV. Then, for each speaker and zone, these activation values can be accumulated for each of the nominal positions associated with the spatial zone to obtain a value . This value represents the total activation value of speaker i for rendering the entire set of nominal positions associated with spatial region j . Finally, the contribution value of the speaker in the spatial zone can be calculated as the accumulated activation value, , normalized to the sum of all these accumulated activation values for the speakers. The weights can then be approximated to this speaker participation value:
Описанная нормализация обеспечивает то, что сумма по всем динамикам i равна единице, что является требуемым свойством для весовых коэффициентов в уравнении 8.The described normalization ensures that the sum over all speakers, i is equal to one, which is the required property for the weighting factors in
Согласно некоторым реализациям вышеописанный способ вычисления значений участия динамиков и комбинирования порогов в зависимости от этих значений можно выполнять как статический способ, в котором результирующие комбинированные пороги вычисляются один раз в ходе процедуры установки, при которой определяется схема размещения и функциональные возможности динамиков в среде. Можно предположить, что в такой системе после установки остаются статичными как конфигурационные данные динамической обработки отдельных громкоговорителей, так и способ, которым алгоритм рендеринга активирует громкоговорители в зависимости от требуемого местоположения звукового сигнала. В некоторых системах, однако, оба эти аспекта могут изменяться с течением времени, например, в ответ на изменение условий в среде воспроизведения, и поэтому для учета этих изменений может потребоваться обновление комбинированных порогов в соответствии с вышеописанным способом или непрерывно, или способом инициирования при наступлении события.According to some implementations, the above method of calculating speaker participation values and combining thresholds depending on these values can be performed as a static method, in which the resulting combined thresholds are calculated once during the installation procedure, which determines the layout and functionality of the speakers in the environment. It can be assumed that in such a system, once installed, both the configuration data for the dynamics processing of the individual loudspeakers and the way in which the rendering algorithm activates the loudspeakers, depending on the desired location of the audio signal, remain static. In some systems, however, both of these aspects may change over time, for example, in response to changing conditions in the playback environment, and therefore, to account for these changes, it may be necessary to update the combined thresholds in accordance with the above method, either continuously, or in a triggering method on the occurrence of developments.
В ответ на изменения в среде прослушивания, оба алгоритма рендеринга, CMAP и FV, можно дополнить для адаптации к одной или более динамически конфигурируемым функциям. Например, со ссылкой на фиг. 7, человек, находящийся вблизи динамика 3, может произносить пробуждающее слово виртуального цифрового помощника, связанного с динамиками, таким образом переводя систему в состояние, в котором она готова услышать следующую команду от этого человека. После произнесения пробуждающего слова, система может определять местоположение человека с использованием микрофонов, связанных с громкоговорителями. С помощью этой информации система затем может выбирать перенаправление энергии аудиоданных, воспроизводимых из динамика 3, в другие динамики так, чтобы микрофоны на динамике 3 могли лучше слышать человека. В таком сценарии динамик 2 на фиг. 7 может в течение некоторого промежутка времени по существу «брать на себя» обязательства динамика 3, и, как следствие, значения участия динамиков для окружающей зоны значительно изменяются; значение участия динамика 3 уменьшается, а значение участия динамика 2 увеличивается. Затем пороги зон можно вычислить повторно, так как они зависят от изменившихся значений участия динамиков. Альтернативно или в дополнение к этим изменениям в алгоритме рендеринга, пороги ограничения динамика 3 могут быть уменьшены ниже их номинальных значений, установленных для предотвращения искажения динамика. Этим можно обеспечить то, что остаточное воспроизведение аудиоданных из динамика 3 не выходит за пределы некоторого порога, определенного как такого, что создает помехи в микрофонах, слушающих человека. Так как пороги зон также зависят от порогов отдельных динамиков, их в этом случае также можно обновить.In response to changes in the listening environment, both CMAP and FV rendering algorithms can be extended to adapt to one or more dynamically configurable features. For example, with reference to FIG. 7, a person near the
На фиг. 9 представлена блок-схема, на которой описан один пример способа, который может выполняться таким устройством или системой, как те, что раскрыты в данном документе. Этапы способа 900, как и других способов, описанных в данном документе, необязательно выполняются в указанном порядке. В некоторых реализациях один или более этапов способа 900 могут выполняться одновременно. Более того, некоторые реализации способа 900 могут включать больше или меньше этапов, чем представлено и/или описано. Этапы способа 900 могут выполняться одним или более устройствами, которые могут представлять собой (или могут содержать) систему управления, такую как система 110 управления, которая представлена на фиг. 1 и описанная выше, или один из других примеров раскрытых систем управления.In FIG. 9 is a flow diagram that describes one example of a method that can be performed by such a device or system as those disclosed herein. The steps of
Согласно этому примеру, этап 905 включает получение системой управления и через систему интерфейсов конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из множества громкоговорителей среды прослушивания. В этой реализации конфигурационные данные динамической обработки отдельных громкоговорителей содержат набор конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Согласно некоторым примерам, конфигурационные данные динамической обработки отдельных громкоговорителей для одного или более громкоговорителей могут соответствовать одной или более функциональным возможностям одного или более громкоговорителей. В этом примере каждый из наборов конфигурационных данных динамической обработки отдельных громкоговорителей содержит по меньшей мере один тип конфигурационных данных динамической обработки.According to this example,
В некоторых случаях этап 905 может включать получение наборов конфигурационных данных динамической обработки отдельных громкоговорителей из каждого из множества громкоговорителей среды прослушивания. В других примерах этап 905 может включать получение наборов конфигурационных данных динамической обработки отдельных громкоговорителей из структуры данных, хранящейся в запоминающем устройстве. Например, наборы конфигурационных данных динамической обработки отдельных громкоговорителей могли быть получены ранее, например, как часть процедуры установки для каждого из громкоговорителей, и сохранены в структуре данных.In some cases,
Согласно некоторым примерам, наборы конфигурационных данных динамической обработки отдельных громкоговорителей могут являться специализированными. В некоторых таких примерах наборы конфигурационных данных динамической обработки отдельных громкоговорителей могли быть оценены ранее на основе конфигурационных данных динамической обработки отдельных громкоговорителей для динамиков, имеющих аналогичные характеристики. Например, этап 905 может включать процесс подбора динамиков для определения наиболее похожего динамика из структуры данных, указывающей на множество динамиков, и соответствующего набора конфигурационных данных динамической обработки отдельных громкоговорителей для каждого из этого множества динамиков. Этап сравнения динамиков может основываться, например, на сравнении размера одного или более из низкочастотных динамиков, высокочастотных динамиков и/или среднечастотных динамиков.According to some examples, individual loudspeaker dynamics processing configuration data sets may be specialized. In some such examples, sets of individual speaker dynamics configuration data may have been estimated previously based on individual speaker dynamics configuration data for speakers having similar characteristics. For example, step 905 may include a speaker matching process to determine the most similar speaker from a data structure pointing to a plurality of speakers and a corresponding set of individual speaker dynamics processing configuration data for each of the plurality of speakers. The speaker comparison step may be based, for example, on comparing the size of one or more of the woofers, tweeters and/or midrange speakers.
В этом примере этап 910 включает определение системой управления конфигурационных данных динамической обработки среды прослушивания для множества громкоговорителей. Согласно этой реализации, определение конфигурационных данных динамической обработки среды прослушивания основано на наборе конфигурационных данных динамической обработки отдельных громкоговорителей для каждого громкоговорителя из множества громкоговорителей. Определение конфигурационных данных динамической обработки среды прослушивания может включать комбинирование конфигурационных данных динамической обработки отдельных громкоговорителей из набора конфигурационных данных динамической обработки, например, путем взятия среднего конфигурационных данных динамической обработки отдельных громкоговорителей одного или более типов. В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимального или максимального значений конфигурационных данных динамической обработки отдельных громкоговорителей одного или более типов. Согласно некоторым таким реализациям, определение конфигурационных данных динамической обработки среды прослушивания может включать интерполяцию между минимальным или максимальным значением и средним значением конфигурационных данных динамической обработки отдельных громкоговорителей одного или более типов.In this example,
В этой реализации этап 915 включает прием системой управления и через систему интерфейсов аудиоданных, содержащих один или более звуковых сигналов и связанные пространственные данные. Например, пространственные данные могут указывать намеченное воспринимаемое пространственное положение, соответствующее звуковому сигналу. В этом примере пространственные данные содержат данные каналов и/или пространственные метаданные.In this implementation,
В этом примере этап 920 включает выполнение системой управления динамической обработки в отношении аудиоданных на основе конфигурационных данных динамической обработки среды прослушивания с целью генерирования обработанных аудиоданных. Динамическая обработка этапа 920 может включать любой из раскрытых в данном документе способов динамической обработки, которые включают, но без ограничения, применение одного или более порогов ограничения воспроизведения, данных сжатия и т. д.In this example,
В данном случае этап 925 включает рендеринг системой управления обработанных аудиоданных для воспроизведения через набор громкоговорителей, содержащий по меньшей мере некоторые из множества громкоговорителей, с целью получения подвергнутых рендерингу звуковых сигналов. В некоторых примерах этап 925 может включать применение процесса рендеринга CMAP, процесса рендеринга FV или комбинации двух этих способов. В этом примере этап 920 выполняется перед этапом 925. Однако, как отмечено выше, этап 920 и/или этап 910 могут являться по меньшей мере частично основанными на процессе рендеринга согласно этапу 925. Этапы 920 и 925 могут включать выполнение таких способов, как те, что описаны выше со ссылкой на модуль динамической обработки среды прослушивания и модуль 320 рендеринга по фиг. 3.Here, step 925 includes rendering, by the control system, the processed audio data for playback through a speaker set comprising at least some of the plurality of speakers to obtain rendered audio signals. In some examples, step 925 may include applying a CMAP rendering process, an FV rendering process, or a combination of the two. In this example,
Согласно этому примеру, этап 930 включает доставку через систему интерфейсов подвергнутых рендерингу звуковых сигналов в набор громкоговорителей. В одном примере этап 930 может включать доставку подвергнутых рендерингу звуковых сигналов в громкоговорители 205а–205m через концентратор 305 умного дома и его систему интерфейсов.According to this example, step 930 includes delivering the rendered audio signals through the interface system to the set of speakers. In one example, step 930 may include delivering rendered audio signals to
В некоторых примерах способ 900 может включать выполнение динамической обработки в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для каждого громкоговорителя из набора громкоговорителей, в которые доставляются подвергнутые рендерингу звуковые сигналы. Например, снова со ссылкой на фиг. 3, модули А–М динамической обработки могут выполнять динамическую обработку в отношении подвергнутых рендерингу звуковых сигналов в соответствии с конфигурационными данными динамической обработки отдельных громкоговорителей для громкоговорителей 205а–205m.In some examples,
В некоторых реализациях конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных порогов ограничения воспроизведения для каждого громкоговорителя из множества громкоговорителей. В некоторых таких примерах набор данных порогов ограничения воспроизведения может содержать пороги ограничения воспроизведения для каждой из множества частот.In some implementations, the individual speaker dynamics configuration data may comprise a set of playback limit threshold data for each speaker of the plurality of speakers. In some such examples, the play limit threshold dataset may comprise play limit thresholds for each of the plurality of frequencies.
В некоторых случаях определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых примерах определение конфигурационных данных динамической обработки среды прослушивания может включать усреднение порогов ограничения воспроизведения с целью получения усредненных порогов ограничения воспроизведения по множеству громкоговорителей. В некоторых таких примерах определение конфигурационных данных динамической обработки среды прослушивания может включать определение минимальных порогов ограничения воспроизведения по множеству громкоговорителей и интерполяцию между минимальными порогами ограничения воспроизведения и усредненными порогами ограничения воспроизведения.In some cases, determining the configuration data of the dynamic processing of the listening environment may include determining the minimum thresholds for limiting playback across multiple speakers. In some examples, determining the listening environment dynamics processing configuration data may include averaging the playback limit thresholds to obtain average playback limit thresholds over a plurality of speakers. In some such examples, determining the listening environment dynamics processing configuration data may include determining the minimum playback restriction thresholds across a plurality of speakers and interpolating between the minimum playback restriction thresholds and the average playback restriction thresholds.
Согласно некоторым реализациям усреднение порогов ограничения воспроизведения может включать определение взвешенного среднего порогов ограничения воспроизведения. В некоторых таких примерах взвешенное среднее может являться по меньшей мере частично основанным на характеристиках процесса рендеринга, реализуемого системой управления, например, характеристиках процесса рендеринга согласно этапу 925.According to some implementations, averaging the playback restriction thresholds may include determining a weighted average of the playback restriction thresholds. In some such examples, the weighted average may be at least partially based on the characteristics of the rendering process implemented by the control system, for example, the characteristics of the rendering process according to block 925.
В некоторых реализациях выполнение динамической обработки в отношении аудиоданных может основываться на пространственных зонах. Каждая из пространственных зон может соответствовать подмножеству среды прослушивания.In some implementations, performing dynamics processing on audio data may be based on spatial zones. Each of the spatial zones may correspond to a subset of the listening environment.
Согласно некоторым таким реализациям динамическая обработка может выполняться отдельно для каждой из пространственных зон. Например, определение конфигурационных данных динамической обработки среды прослушивания может выполняться отдельно для каждой из пространственных зон. Например, отдельно для каждой из одной или более пространственных зон может выполняться комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей. В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от требуемого местоположения звукового сигнала в одной или более пространственных зонах.According to some such implementations, dynamic processing may be performed separately for each of the spatial zones. For example, the determination of the listening environment dynamics processing configuration data may be performed separately for each of the spatial regions. For example, separately for each of the one or more spatial zones, a combination of dynamic processing configuration data sets across a plurality of speakers may be performed. In some examples, combining multiple speaker dynamics configuration data sets separately for each of one or more spatial zones may be at least in part based on speaker activation values by the rendering process depending on the desired location of the audio signal in one or more spatial zones.
В некоторых примерах комбинирование наборов конфигурационных данных динамической обработки по множеству громкоговорителей отдельно для каждой из одной или более пространственных зон может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из одной или более пространственных зон. Каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из одной или более пространственных зон. В некоторых примерах номинальные пространственные положения могут соответствовать стандартным местоположениям каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых таких реализациях каждое значение участия громкоговорителя является по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из одной или более пространственных зон.In some examples, combining the multiple speaker dynamics configuration data sets separately for each of the one or more spatial zones may be at least in part based on the speaker contribution value for each speaker in each of the one or more spatial zones. Each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the one or more spatial zones. In some examples, the nominal spatial positions may correspond to standard channel locations in a Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mix. In some such implementations, each speaker contribution value is at least in part based on the activation value of each speaker corresponding to the rendering of audio data at each of one or more nominal spatial positions in each of the one or more spatial zones.
Согласно некоторым таким примерам, взвешенное среднее порогов ограничения воспроизведения может являться по меньшей мере частично основанным на значениях активации громкоговорителей с помощью процесса рендеринга в зависимости от близости звукового сигнала к пространственным зонам. В некоторых случаях взвешенное среднее может являться по меньшей мере частично основанным на значении участия громкоговорителя для каждого громкоговорителя в каждой из пространственных зон. В некоторым таких примерах каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на одном или более номинальных пространственных положениях в каждой из пространственных зон. Например, номинальные пространственные положения могут соответствовать стандартным местоположениям каналов в микшировании окружающего звука Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 или Dolby 9.1. В некоторых реализациях каждое значение участия громкоговорителя может являться по меньшей мере частично основанным на значении активации каждого громкоговорителя, соответствующем рендерингу аудиоданных в каждом из одного или более номинальных пространственных положений в каждой из пространственных зон.According to some such examples, the weighted average of playback clipping thresholds may be based at least in part on speaker activation values by the rendering process depending on the proximity of the audio signal to the spatial regions. In some cases, the weighted average may be based at least in part on the loudspeaker participation value for each loudspeaker in each of the spatial zones. In some such examples, each speaker contribution value may be based at least in part on one or more nominal spatial positions in each of the spatial regions. For example, nominal spatial positions may correspond to standard channel locations in Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4, or Dolby 9.1 surround mixing. In some implementations, each speaker participation value may be based at least in part on the activation value of each speaker corresponding to the rendering of audio data at each of the one or more nominal spatial positions in each of the spatial zones.
Согласно некоторым реализациям рендеринг обработанных аудиоданных может включать определение относительного значения активации набора громкоговорителей в соответствии с одной или более динамически конфигурируемыми функциями. Некоторые примеры описаны ниже со ссылкой на фиг. 10 и следующие. Одна или более динамически конфигурируемых функций могут основываться на одном или более свойствах звуковых сигналов, одном или более свойствах набора громкоговорителей, или одном или более внешних входных сигналах. Например, одна или более динамически конфигурируемых функций могут основываться на близости громкоговорителей к одному или более слушателям; близости громкоговорителей к положению силы притяжения, при этом сила притяжения представляет собой фактор, благоприятствующий относительно большему значению активации громкоговорителя, расположенного ближе к положению силы притяжения; близости громкоговорителей к положению силы отталкивания, при этом сила отталкивания представляет собой фактор, благоприятствующий относительно меньшему значению активации громкоговорителя, расположенного ближе к положению силы отталкивания; функциональных возможностях каждого громкоговорителя относительно других громкоговорителей в среде; синхронизации громкоговорителей относительно других громкоговорителей; выполнении пробуждающего слова; или выполнении эхоподавителя.In some implementations, rendering the processed audio data may include determining a relative speaker set activation value in accordance with one or more dynamically configurable functions. Some examples are described below with reference to FIG. 10 and following. One or more dynamically configurable functions may be based on one or more audio signal properties, one or more speaker set properties, or one or more external input signals. For example, one or more dynamically configurable functions may be based on the proximity of the speakers to one or more listeners; the proximity of the loudspeakers to the position of the attractive force, wherein the attractive force is a factor favoring a relatively larger activation value of the loudspeaker located closer to the position of the attractive force; the proximity of the loudspeakers to the position of the repulsive force, with the repulsive force being a factor favoring a relatively smaller activation value of the loudspeaker closer to the position of the repulsive force; the functionality of each loudspeaker relative to other loudspeakers in the environment; synchronization of loudspeakers relative to other loudspeakers; fulfillment of the awakening word; or performing an echo canceller.
Относительное значение активации динамиков в некоторых примерах может основываться на функции стоимости модели воспринимаемого пространственного положения звуковых сигналов при воспроизведении динамиками, критерии близости намеченного воспринимаемого пространственного положения звуковых сигналов к положениям динамиков и одной или более из динамически конфигурируемых функций.The relative speaker activation value in some examples may be based on a cost function of the perceived spatial position of the audio signals when played by the speakers, a criterion for the proximity of the intended perceived spatial position of the audio signals to the speaker positions, and one or more dynamically configurable functions.
В некоторых примерах минимизация функции стоимости (содержащей по меньшей мере один показатель динамической активации динамика) может приводить к деактивации по меньшей мере одного из динамиков (в том смысле, что каждый такой динамик не воспроизводит соответствующее звуковое содержимое) и активации по меньшей мере одного из динамиков (в том смысле, что каждый такой динамик воспроизводит по меньшей мере некоторую часть подвергнутого рендерингу звукового содержимого). Показатель (показатели) динамической активации динамика может делать возможным по меньшей мере один из множества вариантов поведения, в том числе деформации пространственного представления аудиоданных в сторону от конкретного интеллектуального звукового устройства, для того чтобы его микрофон мог лучше слышать говорящего, или чтобы вторичный аудиопоток можно было лучше слышать из динамика (динамиков) интеллектуального звукового устройства.In some examples, minimizing the cost function (comprising at least one dynamic speaker activation metric) may result in at least one of the speakers being deactivated (in the sense that each such speaker does not play the corresponding audio content) and at least one of the speakers being activated. (in the sense that each such speaker reproduces at least some part of the rendered audio content). The dynamic speaker activation metric(s) can enable at least one of a variety of behaviors, including warping the spatial representation of audio data away from a particular smart audio device so that its microphone can better hear a speaker, or so that a secondary audio stream can be hear better from the speaker(s) of the smart audio device.
Согласно некоторым реализациям конфигурационные данные динамической обработки отдельных громкоговорителей могут содержать набор данных сжатия динамического диапазона для каждого громкоговорителя из множества громкоговорителей. В некоторых случаях набор данных сжатия динамического диапазона может содержать одно или более из данных порогов, данных отношения уровней входного и выходного сигналов, данных нарастания, данных ослабления или данных загиба.In some implementations, the individual speaker dynamics configuration data may comprise a set of dynamic range compression data for each speaker of the plurality of speakers. In some cases, the dynamic range compression data set may contain one or more of threshold data, input-to-output level ratio data, rise data, attenuation data, or knee data.
Как отмечено выше, в некоторых реализациях по меньшей мере некоторые этапы способа 900, которые представлены на фиг. 9, могут быть опущены. Например, в некоторых реализациях этапы 905 и 910 выполняются в ходе процесса установки. В некоторых реализациях после определения конфигурационных данных динамической обработки среды прослушивания этапы 905–910 не выполняются заново в ходе операций «рабочего цикла» до тех пор, пока не изменится тип и/или расположение динамиков среды прослушивания. Например, в некоторых реализациях может происходить исходная проверка с целью определения, были ли добавлены или отключены какие-либо громкоговорители, изменились ли положения каких-либо громкоговорителей, и т. д. Если да, то этапы 905 и 910 могут быть реализованы. Если нет, то этапы 905 и 910 могут не выполняться заново перед операциями «рабочего цикла», которые могут включать этапы 915–930.As noted above, in some implementations, at least some of the steps of the
Как отмечено выше, существующие гибкие технические решения рендеринга включают «Амплитудное панорамирование центра масс» (CMAP) и «Гибкую виртуализацию» (FV). С профессиональной точки зрения, оба этих технических решения выполняют рендеринг набора из одного или более звуковых сигналов, каждый из которых имеет связанное требуемое воспринимаемое пространственное положение, для воспроизведения через набор из двух или более динамиков, при этом относительное значение активации динамиков из набора зависит от модели воспринимаемого пространственного положения указанных звуковых сигналов, воспроизводимых через эти динамики, и близости требуемого воспринимаемого пространственного положения звуковых сигналов к положениям динамиков. Эта модель обеспечивает слышимость для слушателя звукового сигнала рядом с его намеченным пространственным положением, а показатель близости управляет тем, какие динамики используются для достижения этого пространственного впечатления. В частности показатель близости благоприятствует активации динамиков, находящихся рядом с требуемым воспринимаемым пространственным положением звукового сигнала. И для CMAP, и для FV эту функциональную взаимосвязь удобно получить из функции стоимости, записанной в виде суммы двух показателей, одного для пространственного аспекта, и одного для близости:As noted above, existing flexible rendering solutions include "Center of Mass Amplitude Panning" (CMAP) and "Flexible Virtualization" (FV). From a professional point of view, both of these technical solutions render a set of one or more audio signals, each with an associated desired perceived spatial position, for playback through a set of two or more speakers, with the relative activation value of the speakers from the set depending on the model. the perceived spatial position of the specified audio signals reproduced through these speakers, and the proximity of the desired perceived spatial position of the audio signals to the positions of the speakers. This model ensures that the listener of the audio signal is audible near their intended spatial position, and the Proximity score controls which speakers are used to achieve that spatial impression. In particular, the proximity indicator favors the activation of speakers that are close to the desired perceived spatial position of the audio signal. For both CMAP and FV, this functional relationship is conveniently derived from a cost function written as the sum of two scores, one for spatial aspect and one for proximity:
В данном случае множество обозначает положения множества M громкоговорителей, обозначает требуемое воспринимаемое пространственное положение звукового сигнала, и g обозначает M-мерный вектор значений активации динамиков. Для CMAP каждое значение активации в этом векторе представляет коэффициент усиления для динамика, тогда как для FV каждое значение активации представляет фильтр (в этом, втором случае g можно эквивалентно рассматривать как вектор комплексных значений на определенной частоте, и для образования фильтра на множестве частот вычисляется другое g). Оптимальный вектор значений активации находят путем минимизации функции стоимости по значениям активации:In this case, the set denotes the positions of the set M of loudspeakers, denotes the desired perceived spatial position of the audio signal, and g denotes an M -dimensional vector of speaker activation values. For CMAP, each activation value in this vector represents a gain for the speaker, while for FV, each activation value represents a filter (in this second case, g can equivalently be viewed as a vector of complex values at a specific frequency, and another is computed to form a filter over a set of frequencies. g ). The optimal vector of activation values is found by minimizing the cost function over the activation values:
С помощью известных определений функции стоимости трудно управлять абсолютным уровнем оптимальных значений активации, являющихся результатом вышеописанной минимизации, хотя относительный уровень между составляющими является подходящим. Для решения этой проблемы последующую нормализацию можно выполнить так, чтобы абсолютный уровень значений активации стал управляемым. Например, может требоваться нормализация вектора на единичную длину, что согласовывается с обычно используемыми правилами панорамирования с постоянной энергией: Known cost function definitions make it difficult to control the absolute level of optimal activation values resulting from the minimization described above, although the relative level between the components is suitable. To solve this problem, the subsequent normalization can be done so that the absolute level of activation values becomes manageable. For example, a vector may need to be normalized to one length, which is consistent with the commonly used constant energy panning rules:
Точное поведение алгоритма гибкого рендеринга определяется конкретной структурой двух показателей функции стоимости, и . Для CMAP получают из модели, которая размещает воспринимаемое пространственное положение звукового сигнала, воспроизводимого из набора громкоговорителей, в центре массы положений этих громкоговорителей, подвергнутых весовой обработке с помощью связанных с ними активирующих коэффициентов усиления, (элементов вектора g):The exact behavior of the flexible rendering algorithm is determined by the particular structure of the two cost function measures, and . For CMAP derived from a model that places the perceived spatial position of an audio signal reproduced from a set of loudspeakers at the center of the mass of those loudspeaker positions weighted by their associated activation gains, (elements of vector g ):
Уравнение 3 затем преобразуется в пространственную стоимость, представляющую квадратичную ошибку между требуемым положением аудиоданных и аудиоданными, полученными активированными громкоговорителями:
Для FV пространственный показатель функции стоимости определяют иначе. Целью является получение бинауральной характеристики b, соответствующей положению звукового объекта, , в левом и правом ушах слушателя. Теоретически b представляет собой вектор фильтров (по одному фильтру для каждого уха) размера 2x1, однако с ним более удобно обращаться как с вектором комплексных значений размера 2x1 на определенной частоте. Совершая дальнейшие действия с помощью этого представления на определенной частоте, требуемую бинауральную характеристику можно получить из набора индексов HRTF с помощью положения объекта:For FV, the spatial exponent of the cost function is defined differently. The goal is to obtain a binaural characteristic b corresponding to the position of the sound object, , in the listener's left and right ears. Theoretically, b is a vector of filters (one filter for each ear) of size 2x1, but it is more convenient to treat it as a vector of complex values of size 2x1 at a certain frequency. Working further with this representation at a specific frequency, the required binaural response can be obtained from the set of HRTF indices using the position of the object:
В то же время, бинауральная характеристика e размера 2x1, получаемая в ушах слушателя с помощью громкоговорителей, моделируется в виде матрицы звукопередачи, H, размера 2xM, умноженной на вектор комплексных значений активации динамиков, g, размера Mx1:At the same time, a 2x1 binaural response e , obtained in the listener's ears with loudspeakers, is modeled as a 2xM sound transmission matrix, H , multiplied by a vector of complex speaker activation values, g , of size M x1:
Матрица звукопередачи, H, моделируется на основе набора положений громкоговорителей, , относительно положения слушателя. Наконец, пространственная составляющая функции стоимости задана как квадратичная ошибка между требуемой бинауральной характеристикой (уравнение 14) и бинауральной характеристикой, полученной с помощью громкоговорителей (уравнение 15):The sound transmission matrix, H , is modeled based on a set of speaker positions, , relative to the position of the listener. Finally, the spatial component of the cost function is given as the squared error between the desired binaural response (Equation 14) and the binaural response obtained from the loudspeakers (Equation 15):
Для удобства пространственный показатель функции стоимости для CMAP и FV, заданный в уравнениях 13 и 16, можно в обоих случаях преобразовать в квадратную матрицу, зависящую от значений активации динамиков, g:For convenience, the spatial cost function exponent for CMAP and FV given in Equations 13 and 16 can in both cases be converted into a square matrix dependent on speaker activation values, g :
где A представляет собой квадратную матрицу размера M x M, B представляет собой вектор размера 1xM, и C представляет собой скалярную величину. Матрица A имеет ранг 2, поэтому, когда M > 2, существует бесконечное количество значений активации динамиков, g, для которых показатель пространственного отклонения равен нулю. Введение второго показателя функции стоимости, , исключает эту неопределенность и приводит к частному решению со свойствами восприятия, преимущественными по сравнению с другими возможными решениями. Как для CMAP, так и для FV, построен так, что значения активации динамиков, положение которых отдалено от требуемого положения звукового сигнала, , исключаются в большей степени, чем значения активации динамиков, положение которых близко к требуемому положению. Такое построение приводит к оптимальному набору значений активации динамиков, которые являются рассеянными, при этом в значительной степени активируются только динамики в непосредственной близости от требуемого положения звукового сигнала, и на практике это приводит к пространственному воспроизведению звукового сигнала, которое является для восприятия более устойчивым к перемещению слушателя рядом с набором динамиков.where A is a square matrix of size M x M , B is a vector of size 1x M , and C is a scalar. Matrix A has
Для этого второй показатель функции стоимости, , можно задать как взвешенную по расстояниям сумму квадратов абсолютных значений активаций динамиков. Компактно это представлено в матричной форме в виде: For this, the second indicator of the cost function, , can be specified as the distance-weighted sum of the squares of the absolute values of the speaker activations. This is compactly represented in matrix form as:
где D представляет собой диагональную матрицу ухудшений расстояния между требуемым положением аудиоданных и каждым динамиком:where D is a diagonal degradation matrix of the distance between the desired audio data position and each speaker:
Функция ухудшения расстояния может принимать множество форм, но полезной параметризацией является следующая:The distance degradation function can take many forms, but a useful parameterization is:
где представляет собой евклидово расстояние между требуемым положением аудиоданных и положением динамика, и и представляют собой перестраиваемые параметры. Параметр указывает глобальную силу ухудшения; соответствует пространственной степени ухудшения расстояния (будут исключены громкоговорители на расстоянии приблизительно или далее) и учитывает внезапность наступления ухудшения на расстоянии .where is the Euclidean distance between the desired audio data position and the speaker position, and and are adjustable parameters. Parameter indicates the global degradation strength; corresponds to the spatial degree of distance degradation (speakers at a distance of approx. or more) and takes into account the suddenness of the deterioration at a distance .
Комбинирование двух показателей функции стоимости, заданных в уравнениях 17 и 18а, приводит к общей функции стоимости.Combining the two measures of the cost function given in Equations 17 and 18a results in a total cost function.
Приравнивание к нулю производной этой функции стоимости по g и решение для g дает оптимальное решение для значений активации динамиков:Setting the derivative of this cost function with respect to g to zero and solving for g gives the optimal solution for the speaker activation values:
В целом оптимальное решение в уравнении 20 может приводить к значениям активации динамиков, отрицательным по величине. Для построения с помощью CMAP гибкого средства рендеринга эти отрицательные значения активации могут являться нежелательными, поэтому уравнение (20) можно минимизировать при условии, что все значения активации остаются положительными.In general, the optimal solution in
На фиг. 10 и 11 представлены схемы, на которых изображен иллюстративный набор значений активации динамиков и положений рендеринга объектов. В этих примерах значения активации динамиков и положения рендеринга объектов соответствуют положениям динамиков 4, 64, 165, -87 и -4 градусов. В других реализациях может иметься больше или меньше динамиков и/или динамики в разных положениях. На фиг. 10 представлены значения активации динамиков, 1005a, 1010a, 1015a, 1020a и 1025a, которые содержат оптимальное решение уравнения 20 для этих конкретных положений динамиков. На фиг. 11 положения отдельных динамиков представлены на графике в виде квадратов 1105, 1110, 1115, 1120 и 1125, которые соответствуют значениям активации динамиков, 1005a, 1010a, 1015a, 1020a и 1025a, соответственно, по фиг. 10. На фиг. 11 угол 4 соответствует положению 1120 динамика, угол 64 соответствует положению 1125 динамика, угол 165 соответствует положению 1110 динамика, угол -87 соответствует положению 1105 динамика, и угол -4 соответствует положению 1115 динамика. На фиг. 11 также представлены идеальные положения объектов (иначе говоря, положения, в которых звуковые объекты должны подвергаться рендерингу) для множества возможных углов объектов в виде точек 1130а и соответствующие фактические положения рендеринга для этих объектов в виде точек 1135а, соединенных с идеальными положениями объектов пунктирными линиями 1140а.In FIG. 10 and 11 are diagrams depicting an exemplary set of speaker activation values and object rendering positions. In these examples, the speaker activation values and object rendering positions correspond to speaker positions of 4, 64, 165, -87, and -4 degrees. Other implementations may have more or fewer speakers and/or speakers in different positions. In FIG. 10 are speaker activation values, 1005a, 1010a, 1015a, 1020a, and 1025a, which contain the optimal solution to
На фиг. 12A, 12B и 12C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 10 и 11. На фиг. 12A, 12B и 12C угол -4,1 соответствует положению 1115 динамика по фиг. 11, угол 4,1 соответствует положению 1120 динамика по фиг. 11, угол -87 соответствует положению 1105 динамика по фиг. 11, угол 63,6 соответствует положению 1125 динамика по фиг. 11, и угол 165,4 соответствует положению 1110 динамика по фиг. 11. Эти значения участия громкоговорителей представляют собой примеры «весовых коэффициентов», связанных с пространственными зонами, раскрытыми в других местах данного документа. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 12A, 12B и 12C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 12A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 12В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 12С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 12A, 12B and 12C show examples of speaker participation values corresponding to the examples of FIG. 10 and 11. In FIG. 12A, 12B, and 12C, an angle of -4.1 corresponds to
Сочетание гибких способов рендеринга (реализованных в соответствии с некоторыми вариантами осуществления) с набором беспроводных интеллектуальных динамиков (или других интеллектуальных звуковых устройств) может приводить к удобной в использовании системе рендеринга пространственного звука с чрезвычайно большими функциональными возможностями. При рассмотрении взаимодействий с такой системой становится очевидно, что с целью оптимизации для других задач, которые могут возникнуть в ходе использования этой системы, могут потребоваться динамические модификации пространственного рендеринга. Для достижения этой цели, один класс вариантов осуществления дополняет существующие гибкие алгоритмы рендеринга (в которых значение активации динамика зависит от ранее раскрытых пространственного показателя и показателя близости) одной или более дополнительными динамически конфигурируемыми функциями, зависящими от одного или более свойств подвергаемых рендерингу звуковых сигналов, набора динамиков и/или других внешних входных сигналов. Согласно некоторым вариантам осуществления, функция стоимости существующего гибкого рендеринга, приведенная в уравнении 1, дополняется одной или более этими дополнительными зависимостями в соответствии с The combination of flexible rendering techniques (implemented in accordance with some embodiments) with a set of wireless smart speakers (or other smart audio devices) can result in an easy-to-use spatial audio rendering system with extremely high functionality. When considering interactions with such a system, it becomes clear that dynamic modifications to the spatial rendering may be required to optimize for other problems that may arise during the use of this system. To achieve this goal, one class of embodiments complements existing flexible rendering algorithms (in which the speaker activation value depends on the previously disclosed spatial and proximity metrics) with one or more additional dynamically configurable functions depending on one or more properties of the rendered audio signals, a set speakers and/or other external inputs. According to some embodiments, the existing flexible rendering cost function given in
В уравнении 21 показатели представляют дополнительные показатели стоимости, где представляет набор из одного или более свойств подвергаемых рендерингу звуковых сигналов (например, звуковой программы на основе объектов), представляет набор из одного или более свойств динамиков, подвергаемых рендерингу звуковых сигналов и представляет один или более дополнительных внешних входных сигналов. Каждый показатель возвращает стоимость в зависимости от значений активации, g, в отношении комбинации из одного или более свойств звуковых сигналов, динамиков и/или внешних входных сигналов, обобщенно представленных множеством . Следует понимать, что набор содержит по меньшей мере только один элемент из , и .In equation 21, indicators represent additional indicators of value, where represents a set of one or more properties of audio signals to be rendered (for example, an object-based audio program), represents a set of one or more speaker properties that are subject to audio rendering, and represents one or more additional external input signals. Each indicator returns the cost depending on activation values, g , with respect to a combination of one or more properties of audio signals, speakers, and/or external input signals, summarized by the set . It should be understood that the set contains at least one element from , and .
Примеры включают, но без ограничения:Examples include but not limited to:
• требуемое воспринимаемое пространственное положение звукового сигнала;• the required perceived spatial position of the audio signal;
• уровень (возможно, переменный во времени) звукового сигнала; и/или• level (possibly variable in time) of the audio signal; and/or
• спектр (возможно, переменный во времени) звукового сигнала.• the spectrum (possibly time-varying) of the audio signal.
Примеры включают, но без ограничения:Examples include but not limited to:
• местоположения громкоговорителей в пространстве прослушивания;• location of loudspeakers in the listening space;
• частотную характеристику громкоговорителей;• frequency response of loudspeakers;
• ограничения уровня воспроизведения громкоговорителей;• loudspeaker playback level restrictions;
• параметры алгоритмов динамической обработки в динамиках, такие как коэффициенты усиления ограничителей;• parameters of dynamics processing algorithms in speakers, such as limiter gains;
• результат измерения или оценку звукопередачи от одного динамика к другим;• the result of a measurement or evaluation of sound transmission from one speaker to another;
• критерий эффективности эхоподавителя в отношении динамиков; и/или• criteria for the effectiveness of the echo canceller in relation to speakers; and/or
• относительную синхронизацию динамиков относительно друг друга.• the relative timing of the speakers relative to each other.
Примеры включают, но без ограничения:Examples include but not limited to:
• местоположения одного или более слушателей или говорящих в пространстве воспроизведения;• the locations of one or more listeners or speakers in the playback space;
• результат измерения или оценку звукопередачи от каждого громкоговорителя к местоположению прослушивания;• the result of a measurement or an estimate of the sound transmission from each loudspeaker to the listening location;
• результат измерения или оценку звукопередачи от говорящего к набору громкоговорителей;• the result of a measurement or evaluation of the sound transmission from the speaker to the set of loudspeakers;
• местоположение какого-либо другого ориентира в пространстве воспроизведения; и/или• the location of some other landmark in the playback space; and/or
• результат измерения или оценку звукопередачи от каждого динамика к какому-либо другому ориентиру в пространстве воспроизведения. • the result of a measurement or an estimate of the sound transmission from each speaker to some other landmark in the playback space.
С помощью новой функции стоимости, заданной в уравнении 21, оптимальный набор значений активации можно найти с помощью минимизации по g и, возможно, последующей нормализации, как описано ранее в уравнениях 11a и 11b.With the new cost function given in Equation 21, the optimal set of activation values can be found by minimizing with respect to g and possibly subsequent normalization as described earlier in Equations 11a and 11b.
Аналогично стоимости близости, заданной в уравнениях 18a и 18b, также удобно выразить каждый из новых показателей функции стоимости в виде взвешенной суммы квадратов абсолютных значений активаций динамиков:Similar to the proximity cost given in Equations 18a and 18b, it is also convenient to express each of the new cost function measures as a weighted sum of squares of the absolute values of speaker activations:
где представляет собой диагональную матрицу весовых коэффициентов , описывающую стоимость, связанную со значением активации динамика i, для показателя j:where is a diagonal matrix of weights , which describes the cost associated with the activation value of the speaker i , for the indicator j :
Комбинирование уравнений 22a и 22b с квадратной матричной версией функций стоимости CMAP и FV, заданной в уравнении 19, обеспечивает потенциально полезную реализацию общераспространенной функции стоимости (согласно некоторым вариантам осуществления), заданной в уравнении 21:Combining Equations 22a and 22b with the square matrix version of the CMAP and FV cost functions defined in Equation 19 provides a potentially useful implementation of the commonly used cost function (according to some embodiments) defined in Equation 21:
При таком определении новых показателей функции стоимости, общая функция стоимости остается квадратной матрицей, и оптимальный набор значений активации, , можно найти путем дифференцирования уравнения 23 для полученияWith this definition of the new cost function measures, the overall cost function remains a square matrix, and the optimal set of activation values, , can be found by differentiating Equation 23 to obtain
Полезно рассматривать каждый из весовых показателей в зависимости от заданного значения непрерывного ухудшения, , для каждого из громкоговорителей. В одном иллюстративном варианте осуществления это значение ухудшения представляет собой расстояние от объекта (подлежащего рендерингу) до рассматриваемого громкоговорителя. В другом иллюстративном варианте осуществления это значение ухудшения представляет неспособность данного громкоговорителя воспроизводить некоторые частоты. На основе этого значения ухудшения весовые показатели можно параметризовать в виде:It is useful to consider each of the weight indicators depending on the set value of continuous degradation, , for each speaker. In one exemplary embodiment, this degradation value is the distance from the object (to be rendered) to the speaker in question. In another exemplary embodiment, this degradation value represents the inability of a given loudspeaker to reproduce certain frequencies. Based on this degradation value, the weights can be parameterized as:
где представляет предварительный коэффициент (который учитывает глобальную интенсивность весового показателя), где представляет порог ухудшения (рядом или за пределами которого весовой показатель становится значительным), и где представляет монотонно возрастающую функцию. Например, когда , весовой показатель имеет вид:where represents a provisional factor (which takes into account the global weighting intensity), where represents the impairment threshold (near or beyond which the weight becomes significant), and where represents a monotonically increasing function. For example, when , the weight indicator looks like:
где , , представляют собой перестраиваемые параметры, которые указывают, соответственно, на глобальную силу ухудшения, внезапность наступления ухудшения и степень ухудшения. При установке этих перестраиваемых значений следует тщательно следить за тем, чтобы относительное воздействие показателя стоимости относительно любых других дополнительных показателей стоимости, а также и , соответствовало достижению требуемого результата. Например, в качестве эмпирического правила, если требуется, чтобы определенное ухудшение явно доминировало над остальными, то подходящей может являться установка его интенсивности приблизительно в десять раз больше следующей по величине интенсивности ухудшения.where , , are tunable parameters that indicate, respectively, the global strength of the deterioration, the suddenness of the onset of the deterioration, and the degree of deterioration. When setting these adjustable values, care should be taken to ensure that the relative impact of the cost measure in relation to any other additional cost indicators, as well as and , to achieve the desired result. For example, as a rule of thumb, if you want a certain impairment to clearly dominate the others, setting its intensity to approximately ten times the next-highest impairment rate.
В случае исключения всех громкоговорителей часто удобно вычесть минимальное ухудшение из всех весовых показателей при последующей обработке так, чтобы не исключался по меньшей мере один из динамиков:In the case of excluding all loudspeakers, it is often convenient to subtract the minimum impairment from all post-processing weights so that at least one of the loudspeakers is not excluded:
Как указано выше, существует множество возможных вариантов использования, которые можно реализовать с использованием новых показателей функции стоимости, описанных в данном документе (и аналогичных новых показателей функции стоимости, используемых в соответствии с другими вариантами осуществления). Далее более конкретные подробности описаны с помощью трех примеров: перемещение аудиоданных в направлении слушателя или говорящего, перемещение аудиоданных в направлении от слушателя или говорящего и перемещение аудиоданных в сторону от ориентира.As noted above, there are many possible use cases that can be implemented using the new cost function measures described herein (and similar new cost function measures used in accordance with other embodiments). In the following, more specific details are described with three examples: moving audio data in the direction of the listener or speaker, moving audio data in the direction away from the listener or speaker, and moving audio data away from the landmark.
В первом примере то, что будет называться в данном документе «силой притяжения» используется для подтягивания аудиоданных к некоторому положению, которое в некоторых примерах может представлять собой положение слушателя или говорящего, положение ориентира, положение мебели и т. д. Это положение в данном документе может называться «положением силы притяжения», или «местоположением аттрактора». В контексте данного документа «сила притяжения» представляет собой фактор, который благоприятствует относительно большему значению активации громкоговорителя, расположенного ближе к положению силы притяжения. Согласно данному примеру, весовой коэффициент принимает форму уравнения 26 со значением непрерывного ухудшения, , заданным расстоянием i-го динамика от фиксированного местоположения аттрактора, , и пороговым значением , заданным максимальным из этих расстояний по всем динамикам: In the first example, what will be referred to in this document as "attractive force" is used to pull the audio data to some position, which in some examples may be the position of the listener or speaker, the position of a landmark, the position of furniture, etc. This position in this document may be called the "position of the force of attraction", or "the location of the attractor". In the context of this document, "attractive force" is a factor that favors a relatively larger activation value of a loudspeaker closer to the position of the attractive force. According to this example, the weighting factor takes the form of Equation 26 with a continuous degradation value, , given by the distance of the i -th speaker from the fixed location of the attractor, , and threshold value , given by the maximum of these distances over all speakers:
Для иллюстрации варианта использования с «подтягиванием» аудиоданных к слушателю или говорящему, в частности, приравняем = 20, = 3, и вектору, соответствующему положению слушателя/говорящего под углом 180 градусов (нижняя центральная часть графика). Эти значения , и являются лишь примерами. В некоторых реализациях может находиться в диапазоне от 1 до 100, и может находиться в диапазоне от 1 до 25.To illustrate a use case with "pulling" audio data to a listener or speaker, in particular, equate = 20, = 3, and a vector corresponding to the position of the listener/speaker at an angle of 180 degrees (bottom center of the graph). These values, and are just examples. In some implementations can range from 1 to 100, and can range from 1 to 25.
На фиг. 13 представлен график значений активации динамиков в иллюстративном варианте осуществления. В этом примере на фиг. 13 представлены значения активации динамиков, 1005b, 1010b, 1015b, 1020b и 1025b, которые содержат оптимальное решение функции стоимости для таких же положений динамиков, как на фиг. 10 и 11, с добавлением силы притяжения, представленной в виде .In FIG. 13 is a graph of speaker activation values in an exemplary embodiment. In this example, in FIG. 13 are speaker activation values, 1005b, 1010b, 1015b, 1020b, and 1025b, which contain the optimal cost function solution for the same speaker positions as in FIG. 10 and 11, with the addition of an attractive force represented as .
На фиг. 14 представлен график положений рендеринга объектов в иллюстративном варианте осуществления. Положения громкоговорителей на фиг. 14, 17 и 20 являются такими же, как те, что представлены на фиг. 11. В этом примере на фиг. 14 представлены соответствующие идеальные положения 1130b объектов для множества возможных углов объектов и соответствующие фактические положения 1135b рендеринга для этих объектов, которые соединены с идеальными положениями 1130b объектов пунктирными линиями 1140b. Смещенная ориентация фактических положений 1135b рендеринга к фиксированному положению иллюстрирует влияние весовых коэффициентов аттрактора на оптимальное решение функции стоимости.In FIG. 14 is a graph of object rendering positions in an exemplary embodiment. The positions of the loudspeakers in Fig. 14, 17 and 20 are the same as those shown in FIG. 11. In this example, in FIG. 14 shows the respective
На фиг. 15A, 15B и 15C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 13 и 14. На фиг. 15A, 15B и 15C угол -4,1 соответствует положению 1115 динамика по фиг. 11, угол 4,1 соответствует положению 1120 динамика по фиг. 11, угол -87 соответствует положению 1105 динамика по фиг. 11, угол 63,6 соответствует положению 1125 динамика по фиг. 11, и угол 165,4 соответствует положению 1110 динамика по фиг. 11. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 15A, 15B и 15C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 15A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 15В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 15С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 15A, 15B and 15C show examples of speaker contribution values corresponding to the examples of FIG. 13 and 14. In Figs. 15A, 15B, and 15C, an angle of -4.1 corresponds to
Для иллюстрации варианта использования с отталкиванием аудиоданных от слушателя или говорящего, в частности, приравняем = 5, = 2, и вектору, соответствующему положению слушателя/говорящего под углом 180 градусов (в нижней центральной части графика). Эти значения , и являются лишь примерами. Как отмечено выше, в некоторых примерах может находиться в диапазоне от 1 до 100, и может находиться в диапазоне от 1 до 25.To illustrate the use case of pushing audio data away from the listener or speaker, in particular, equate = 5, = 2, and a vector corresponding to the position of the listener/speaker at an angle of 180 degrees (in the lower central part of the graph). These values, and are just examples. As noted above, in some examples can range from 1 to 100, and can range from 1 to 25.
На фиг. 16 представлен график значений активации динамиков в иллюстративном варианте осуществления. Согласно этому примеру на фиг. 16 представлены значения активации динамиков, 1005c, 1010c, 1015c, 1020c и 1025c, которые содержат оптимальное решение функции стоимости для таких же положений динамиков, как на предыдущих фигурах, с добавлением силы отталкивания, представленной в виде .In FIG. 16 is a graph of speaker activation values in an exemplary embodiment. According to this example in FIG. 16 shows the speaker activation values, 1005c, 1010c, 1015c, 1020c and 1025c, which contain the optimal solution of the cost function for the same speaker positions as in the previous figures, with the addition of the repulsive force represented as .
На фиг. 17 представлен график положений рендеринга объектов в иллюстративном варианте осуществления. В этом примере на фиг. 17 представлены идеальные положения 1130c объектов для множества возможных углов объектов и соответствующие фактические положения 1135c рендеринга для этих объектов, которые соединены с идеальными положениями 1130c объектов пунктирными линиями 1140c. Смещенная ориентация фактических положений 1135c рендеринга в сторону от фиксированного положения иллюстрирует влияние весовых коэффициентов репеллера на оптимальное решение функции стоимости.In FIG. 17 is a graph of object rendering positions in an exemplary embodiment. In this example, in FIG. 17 shows
На фиг. 18A, 18B и 18C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 16 и 17. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 18A, 18B и 18C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 18A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 18В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 18С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 18A, 18B and 18C show examples of speaker contribution values corresponding to the examples of FIG. 16 and 17. According to these examples, the speaker contribution values shown in FIG. 18A, 18B and 18C correspond to the participation of each loudspeaker in each of the spatial zones shown in FIG. 6: Loudspeaker contribution values shown in FIG. 18A corresponds to the contribution of each speaker in the center zone, the speaker contribution values shown in FIG. 18B corresponds to the contribution of each speaker in the front left and right zones, and the speaker contribution values shown in FIG. 18C corresponds to the participation of each speaker in the rear zone.
Еще одним иллюстративным вариантом использования является «отталкивание» аудиоданных от ориентира, являющегося чувствительным к звуку, такого как дверь в комнату, где спит ребенок. Аналогично последнему примеру приравняем вектору, соответствующему положению двери под углом 180 градусов (нижняя центральная часть графика). Для достижения большей силы отталкивания и полного смещения звукового поля в переднюю часть первичного пространства прослушивания приравняем = 20, и = 5.Another exemplary use case is to "push" audio data away from a sound-sensitive landmark, such as a door to a baby's room. As in the last example, we equate vector corresponding to the position of the door at an angle of 180 degrees (bottom center of the graph). To achieve a greater repulsive force and a complete shift of the sound field to the front of the primary listening space, we equate = 20, and = 5.
На фиг. 19 представлен график значений активации динамиков в иллюстративном варианте осуществления. И снова, в этом примере на фиг. 19 представлены значения активации динамиков, 1005d, 1010d, 1015d, 1020d и 1025d, которые содержат оптимальное решение для такого же набора положений динамиков с добавлением большей силы отталкивания.In FIG. 19 is a graph of speaker activation values in an exemplary embodiment. Again, in this example in FIG. 19 shows the speaker activation values, 1005d, 1010d, 1015d, 1020d, and 1025d, which provide an optimal solution for the same set of speaker positions with more repulsion added.
На фиг. 20 представлен график положений рендеринга объектов в иллюстративном варианте осуществления. И снова, в этом примере на фиг. 20 представлены идеальные положения 1130d объектов для множества возможных углов объектов и соответствующие фактические положения 1135d рендеринга для этих объектов, которые соединены с идеальными положениями 1130d объектов пунктирными линиями 1140d. Смещенная ориентация фактических положений 1135d рендеринга иллюстрирует влияние больших весовых коэффициентов репеллера на оптимальное решение функции стоимости.In FIG. 20 is a graph of object rendering positions in an exemplary embodiment. Again, in this example in FIG. 20 shows
На фиг. 21A, 21B и 21C представлены примеры значений участия громкоговорителей, соответствующих примерам по фиг. 19 и 20. Согласно этим примерам, значения участия громкоговорителей, представленные на фиг. 21A, 21B и 21C, соответствуют участию каждого громкоговорителя в каждой из пространственных зон, представленных на фиг. 6: значения участия громкоговорителей, представленные на фиг. 21A, соответствует участию каждого громкоговорителя в центральной зоне, значения участия громкоговорителей, представленные на фиг. 21В, соответствует участию каждого громкоговорителя в передней левой и правой зонах, и значения участия громкоговорителей, представленные на фиг. 21С, соответствует участию каждого громкоговорителя в задней зоне.In FIG. 21A, 21B and 21C show examples of speaker participation values corresponding to the examples of FIG. 19 and 20. According to these examples, the speaker contribution values shown in FIGS. 21A, 21B and 21C correspond to the participation of each loudspeaker in each of the spatial zones shown in FIG. 6: Loudspeaker contribution values shown in FIG. 21A corresponds to the participation of each speaker in the center zone, the speaker participation values shown in FIG. 21B corresponds to the contribution of each speaker in the front left and right zones, and the speaker contribution values shown in FIG. 21C corresponds to the participation of each speaker in the rear zone.
На фиг. 22 изображена схема среды, которая в данном примере представляет собой жилую площадь. Среда, представленная на фиг. 22, содержит набор интеллектуальных звуковых устройств (устройства 1.1) для взаимодействия с аудиоданными, динамики (1.3) для вывода аудиоданных и управляемые осветительные приборы (1.2). В одном примере микрофоны содержат только устройства 1.1, и поэтому только они обнаруживают нахождение пользователя (1.4), выдающего голосовой фрагмент речи (например, команду в форме пробуждающего слова). С использованием различных способов информацию для обеспечения оценки положения (например, мелкозернистой оценки положения) пользователя, выдающего (например, произносящего) пробуждающее слово, можно получать из этих устройств совокупно.In FIG. 22 is a diagram of an environment, which in this example is a living area. The environment shown in Fig. 22 contains a set of intelligent audio devices (devices 1.1) for interacting with audio data, speakers (1.3) for outputting audio data, and controllable lighting fixtures (1.2). In one example, the microphones only contain devices 1.1, and therefore only they detect the presence of a user (1.4) issuing a speech fragment (eg, a command in the form of a wake-up word). Using various methods, information to provide a position estimate (eg, a fine-grained position estimate) of a user issuing (eg, speaking) a wake-up word can be obtained collectively from these devices.
На такой жилой площади имеется набор естественных зон активности, в которых человек будет выполнять задачу или действие, или пересекать порог. Эти области (зоны) действий находятся там, где может иметь место попытка оценить местоположение (например, определить неопределенное местоположение) или контекст пользователя для содействия другим аспектам интерфейса. Система рендеринга, содержащая (т. е. реализованная с помощью) по меньшей мере несколько из устройств 1.1 и динамиков 1.3 (и/или, необязательно, по меньшей мере одну другую подсистему или устройство), может функционировать с целью рендеринга аудиоданных для воспроизведения (например, некоторыми или всеми динамиками 1.3) на жилой площади или в одной или более ее зонах. Предполагается, что такая система рендеринга может быть выполнена с возможностью функционирования или в стандартном пространственном режиме, или в распределенном пространственном режиме согласно любому варианту осуществления раскрытого способа. В примере на фиг. 8 ключевыми областями действий являются:In such a living space, there is a set of natural activity zones in which a person will perform a task or action, or cross a threshold. These areas (zones) of action are where an attempt to estimate the location (eg, to determine an undefined location) or user context to facilitate other aspects of the interface can take place. A rendering system comprising (i.e., implemented with) at least some of the 1.1 devices and 1.3 speakers (and/or optionally at least one other subsystem or device) may operate to render audio data for playback (e.g. , some or all of the speakers 1.3) in the living area or in one or more areas of it. It is contemplated that such a rendering system may be configured to operate in either standard spatial mode or distributed spatial mode, according to any embodiment of the disclosed method. In the example in FIG. The 8 key action areas are:
1. Кухонная мойка и область приготовления пищи (в верхней левой области жилой площади);1. Kitchen sink and cooking area (in the upper left area of the living area);
2. Дверь холодильника (справа от мойки и области приготовления пищи);2. Refrigerator door (to the right of the sink and cooking area);
3. Обеденная зона (в нижней левой области жилой площади);3. Dining area (in the lower left area of the living area);
4. Открытая область жилой площади (справа от мойки и области приготовления пищи и обеденной зоны);4. Open area of the living area (to the right of the sink and cooking area and dining area);
5. Область дивана для просмотра телевизора (справа от открытой области); 5. Sofa area for watching TV (to the right of the open area);
6. Сам телевизор;6. TV itself;
7. Столы; и7. Tables; and
8. Область двери или прихожая (в верхней правой области жилой площади).8. Door area or hallway (in the upper right area of the living area).
Часто имеется одинаковое количество осветительных приборов с одинаковым размещением, подходящих для областей действий. Некоторые или все осветительные приборы могут по отдельности находиться под управлением сетевых средств.There are often the same number of lighting fixtures with the same placement suitable for the action areas. Some or all of the lighting fixtures may be individually controlled by network facilities.
В соответствии с некоторыми вариантами осуществления, аудиоданные подвергаются рендерингу (например, одним из устройств 1.1 или другим устройством системы по фиг. 22) с целью воспроизведения (согласно любому раскрытому варианту осуществления) одним или более из динамиков 1.3 (и/или динамиком (динамиками) одного или более устройств 1.1). In accordance with some embodiments, audio data is rendered (e.g., by one of the devices 1.1 or another device of the system of FIG. 22) for playback (according to any disclosed embodiment) by one or more of the speakers 1.3 (and/or speaker(s) one or more devices 1.1).
Один класс вариантов осуществления включает способы рендеринга аудиоданных для воспроизведения и/или воспроизведения аудиоданных по меньшей мере одним (например, всеми или некоторыми) из множества скоординированных (организованных) интеллектуальных звуковых устройств. Например, набор интеллектуальных звуковых устройств, присутствующих (в системе) в доме пользователя, можно организовать для одновременной обработки множества вариантов использования, включая гибкий рендеринг аудиоданных для воспроизведения всеми или некоторыми из (т. е. динамиком (динамиками) некоторых или всех) интеллектуальных звуковых устройств. Предполагается множество взаимодействий с системой, которые требуют динамических модификаций рендеринга и/или воспроизведения. Такие модификации могут являться, но необязательно являются, сосредоточенными на пространственной точности воспроизведения. One class of embodiments includes methods for rendering audio data for playback and/or playback of audio data by at least one (eg, all or some) of a plurality of coordinated (organized) smart audio devices. For example, a set of smart audio devices present (on the system) in a user's home can be arranged to handle multiple use cases simultaneously, including flexible rendering of audio data for playback by all or some of (i.e., speaker(s) of some or all) smart audio devices. There are many interactions with the system that require dynamic rendering and/or playback modifications. Such modifications may be, but are not necessarily, focused on spatial fidelity.
В некоторых вариантах осуществления реализован рендеринг для воспроизведения и/или воспроизведение динамиком (динамиками) множества интеллектуальных звуковых устройств, которые являются скоординированными (организованными). В других вариантах осуществления реализован рендеринг для воспроизведения и/или воспроизведение динамиком (динамиками) из другого набора динамиков.In some embodiments, rendering for playback and/or playback by speaker(s) of a plurality of smart audio devices that are coordinated (organized) is implemented. In other embodiments, rendering is implemented for playback and/or playback by a speaker(s) from another set of speakers.
Некоторые варианты осуществления (например, система или средство рендеринга, или способ рендеринга, или система или способ воспроизведения) относятся к системам и способам для рендеринга аудиоданных для воспроизведения и/или воспроизведения некоторыми или всеми динамиками (т. е. каждым активированным динамиком) из набора динамиков. В некоторых вариантах осуществления динамики представляют собой динамики скоординированного (организованного) набора интеллектуальных звуковых устройств. Примеры таких вариантов осуществления включают следующие пронумерованные иллюстративные варианты осуществления (enumerated example embodiments, EEE). Some embodiments (e.g., a system or renderer, or a rendering method, or a playback system or method) refer to systems and methods for rendering audio data for playback and/or playback by some or all speakers (i.e., each activated speaker) from a set speakers. In some embodiments, the speakers are speakers of a coordinated (organized) set of smart audio devices. Examples of such embodiments include the following enumerated example embodiments (EEE).
EEE1. Способ рендеринга аудиоданных для воспроизведения по меньшей мере двумя динамиками, который включает следующие этапы:EEE1. A method for rendering audio data for playback by at least two speakers, which includes the following steps:
(a) комбинирование порогов ограничения динамиков, определяя тем самым комбинированные пороги; (a) combining speaker clipping thresholds, thereby defining combined thresholds;
(b) выполнение динамической обработки в отношении аудиоданных с использованием комбинированных порогов для генерирования обработанных аудиоданных; и (b) performing dynamics processing on the audio data using the combined thresholds to generate processed audio data; and
(c) рендеринг обработанных аудиоданных в сигналы, подаваемые на динамики.(c) rendering the processed audio data into signals fed to speakers.
EEE2. Способ согласно EEE1, в котором пороги ограничения представляют собой множество из одного или более порогов ограничения воспроизведения, которые представляют ограничения на разных частотах.EEE2. A method according to EEE1, wherein the clipping thresholds are a plurality of one or more playback clipping thresholds that represent clipping at different frequencies.
EEE3. Способ согласно EEE1 или EEE2, в котором указанное комбинирование порога ограничения включает взятие минимального из порогов множества громкоговорителей.EEE3. The method according to EEE1 or EEE2, wherein said combination of the clipping threshold comprises taking the minimum of the thresholds of the plurality of speakers.
EEE3. Способ согласно EEE1 или EEE2, в котором указанное комбинирование порогов ограничения включает этап усреднения по порогам ограничения множества громкоговорителей.EEE3. A method according to EEE1 or EEE2, wherein said combination of clipping thresholds includes the step of averaging over the clipping thresholds of a plurality of speakers.
EEE5. Способ согласно EEE4, в котором указанный этап усреднения представляет собой взвешенное среднее.EEE5. A method according to EEE4 wherein said averaging step is a weighted average.
EEE6. Способ согласно EEE5, в котором указанная весовая обработки получается в зависимости от указанного рендеринга.EEE6. The method according to EEE5, in which the specified weight processing is obtained depending on the specified rendering.
EEE7. Способ согласно любому из EEE1–EEE6, в котором указанный рендеринг является пространственным.EEE7. A method according to any one of EEE1-EEE6, wherein said rendering is spatial.
EEE8. Способ согласно EEE7, в котором указанное ограничение потока звуковой программы включает разное ограничение в разных пространственных зонах.EEE8. A method according to EEE7, wherein said audio program flow restriction includes a different restriction in different spatial zones.
EEE9. Способ согласно EEE8, в котором пороги каждой пространственной зоны получаются с помощью уникальных комбинаций порогов ограничения воспроизведения множества громкоговорителей.EEE9. A method according to EEE8, in which the thresholds of each spatial zone are obtained using unique combinations of playback limitation thresholds of a plurality of loudspeakers.
EEE10. Способ согласно EEE9, в котором уникальные пороги каждой пространственной зоны получаются с помощью взвешенного среднего порогов ограничения множества громкоговорителей.EEE10. A method according to EEE9, in which the unique thresholds of each spatial zone are obtained using a weighted average of the clipping thresholds of a plurality of loudspeakers.
EEE11. Способ согласно EEE10, в котором весовая обработка, связанная с данным громкоговорителем для данной зоны, получается на основе коэффициента участия динамика, связанного с этой зоной.EEE11. A method according to EEE10, wherein the weighting associated with a given loudspeaker for a given zone is obtained based on the participation factor of the speaker associated with that zone.
EEE12. Способ согласно EEE11, в котором указанный коэффициент участия динамика получается на основе значений активации динамиков, соответствующих рендерингу одного или более номинальных пространственных положений, отнесенных к указанной пространственной зоне ограничителя.EEE12. A method according to EEE11, wherein said speaker participation factor is derived based on speaker activation values corresponding to rendering one or more nominal spatial positions related to said limiter spatial zone.
EEE13. Способ согласно любому из EEE 1–EEE12, который дополнительно включает ограничение сигналов, подаваемых на динамики, в соответствии с порогами ограничения, связанными с соответствующим динамиком.EEE13. The method according to any one of EEE 1-EEE12, which further includes clipping the signals applied to the speakers in accordance with clipping thresholds associated with the respective speaker.
EEE14. Система, выполненная с возможностью выполнения способа по любому из EEE 1– EEE13.EEE14. A system capable of performing a method according to any one of EEE 1-EEE13.
Технологически возможными являются многие варианты осуществления. Из настоящего раскрытия специалистам в данной области будет очевидно, как их реализовать. В данном документе описаны некоторые варианты осуществления. Many embodiments are technically feasible. It will be apparent to those skilled in the art from the present disclosure how to implement them. This document describes some embodiments.
Некоторые аспекты настоящего изобретения включают систему или устройство, выполненное с возможностью (например, запрограммированное) выполнения любого раскрытого способа, и материальный машиночитаемый носитель данных (например, диск), на котором хранится код, предназначенный для реализации любого раскрытого способа или его этапов. Например, система может представлять собой или содержать программируемый процессор общего назначения, процессор цифровой обработки сигналов или микропроцессор, запрограммированный с использованием программного обеспечения или программно-аппаратного обеспечения и/или иным образом выполненный с возможностью выполнения любой из множества операций в отношении данных, включая вариант осуществления раскрытого способа или его этапы. Такой процессор общего назначения может представлять собой или содержать компьютерную систему, содержащую устройство ввода, запоминающее устройство и подсистему обработки, запрограммированную для (и/или иным образом выполненную с возможностью) выполнения раскрытого способа (или его этапов) в ответ на передаваемые в нее данные.Some aspects of the present invention include a system or device capable of (eg, programmed) performing any disclosed method, and a tangible computer-readable storage medium (eg, a disk) that stores code for implementing any disclosed method or steps thereof. For example, the system may be or comprise a general purpose programmable processor, a digital signal processor, or a microprocessor programmed using software or firmware and/or otherwise configured to perform any of a variety of operations on data, including the embodiment disclosed method or steps thereof. Such a general purpose processor may be or comprise a computer system including an input device, a storage device, and a processing subsystem programmed to (and/or otherwise capable of) executing the disclosed method (or steps thereof) in response to data being passed thereto.
Некоторые варианты осуществления реализованы в виде конфигурируемого (например, программируемого) процессора цифровой обработки сигналов (DSP), который выполнен с возможностью (например, запрограммирован и иначе сконфигурирован) выполнения требуемой обработки в отношении звукового сигнала (сигналов), включая выполнение одного или более раскрытых способов. Альтернативно, некоторые варианты осуществления (или их элементы) реализованы в виде процессора общего назначения (например, персонального компьютера (РС), другой компьютерной системы или микропроцессора, который может содержать устройство ввода и запоминающее устройство), запрограммированного с помощью программного обеспечения или программно-аппаратного обеспечения и/или иначе выполненного с возможностью выполнения любой из множества операций одного или более раскрытых способов. Альтернативно элементы некоторых вариантов осуществления реализованы в виде процессора общего назначения или DSP, выполненного с возможностью (например, запрограммированного) выполнения одного или более раскрытых способов, и система может также содержать другие элементы (например, один или более громкоговорителей и/или один или более микрофонов). Процессор общего назначения, выполненный с возможностью выполнения одного или более раскрытых способов, может быть соединен с устройством ввода (например, мышью и/или клавиатурой), запоминающим устройством и, в некоторых примерах, устройством отображения. Some embodiments are implemented as a configurable (e.g., programmable) digital signal processor (DSP) that is configured (e.g., programmed and otherwise configured) to perform the desired processing on the audio signal(s), including performing one or more of the disclosed methods. . Alternatively, some embodiments (or elements thereof) are implemented as a general purpose processor (e.g., a personal computer (PC), other computer system, or microprocessor that may include an input device and a storage device) programmed with software or firmware. providing and/or otherwise configured to perform any of the plurality of operations of one or more of the disclosed methods. Alternatively, elements of some embodiments are implemented as a general purpose processor or DSP configured to (e.g., programmed) perform one or more of the disclosed methods, and the system may also include other elements (e.g., one or more speakers and/or one or more microphones). ). A general purpose processor configured to perform one or more of the disclosed methods may be connected to an input device (eg, a mouse and/or keyboard), a storage device, and, in some examples, a display device.
Другой аспект настоящего изобретения представляет собой машиночитаемый носитель данных (например, диск или другой материальный носитель данных), на котором хранится код для выполнения (например, исполняемый код для выполнения) одного или более раскрытых способов или их этапов.Another aspect of the present invention is a computer-readable storage medium (eg, a disk or other tangible storage medium) that stores code for executing (eg, executable code for executing) one or more of the disclosed methods or steps thereof.
Несмотря на то, что в данном документе были описаны конкретные варианты осуществления и применения настоящего изобретения, специалистам в данной области техники будет очевидно, что возможно множество изменений в отношении вариантов осуществления и применений, описанных в данном документе, без отступления от объема настоящего изобретения, описанного и заявленного в данном документе. Следует понимать, что, несмотря на то, что были показаны и описаны определенные формы настоящего изобретения, объем настоящего изобретения не следует ограничивать описанными и показанными конкретными вариантами осуществления или описанными конкретными способами.While specific embodiments and uses of the present invention have been described herein, it will be apparent to those skilled in the art that many changes are possible with respect to the embodiments and uses described herein without departing from the scope of the present invention as described. and stated in this document. It should be understood that while certain forms of the present invention have been shown and described, the scope of the present invention should not be limited to the specific embodiments described and shown or the specific methods described.
Claims (25)
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ESP201930702 | 2019-07-30 | ||
US62/880,115 | 2019-07-30 | ||
US62/971,421 | 2020-02-07 | ||
US62/705,143 | 2020-06-12 | ||
US62/705,410 | 2020-06-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2783150C1 true RU2783150C1 (en) | 2022-11-09 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013009125A2 (en) * | 2011-07-13 | 2013-01-17 | 주식회사 네오위즈인터넷 | Method and apparatus for managing playlist |
JP2015510283A (en) * | 2011-11-14 | 2015-04-02 | グーグル・インク | Display of sound status on wearable computer system |
US9226073B2 (en) * | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US10264355B2 (en) * | 2017-06-02 | 2019-04-16 | Apple Inc. | Loudspeaker cabinet with thermal and power mitigation control effort |
US10276173B2 (en) * | 2015-07-31 | 2019-04-30 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
WO2019246457A1 (en) * | 2018-06-22 | 2019-12-26 | Dolby Laboratories Licensing Corporation | Multichannel audio enhancement, decoding, and rendering in response to feedback |
JP7020892B2 (en) * | 2017-12-12 | 2022-02-16 | 三菱重工業株式会社 | Mine processing system |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013009125A2 (en) * | 2011-07-13 | 2013-01-17 | 주식회사 네오위즈인터넷 | Method and apparatus for managing playlist |
JP2015510283A (en) * | 2011-11-14 | 2015-04-02 | グーグル・インク | Display of sound status on wearable computer system |
US9226073B2 (en) * | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US10276173B2 (en) * | 2015-07-31 | 2019-04-30 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US10264355B2 (en) * | 2017-06-02 | 2019-04-16 | Apple Inc. | Loudspeaker cabinet with thermal and power mitigation control effort |
JP7020892B2 (en) * | 2017-12-12 | 2022-02-16 | 三菱重工業株式会社 | Mine processing system |
WO2019246457A1 (en) * | 2018-06-22 | 2019-12-26 | Dolby Laboratories Licensing Corporation | Multichannel audio enhancement, decoding, and rendering in response to feedback |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102670118B1 (en) | Manage multiple audio stream playback through multiple speakers | |
CN114175686B (en) | Audio processing method and system and related non-transitory medium | |
CN114868403B (en) | Multi-band limiter modes and noise compensation methods | |
CN114207715A (en) | Acoustic echo cancellation control for distributed audio devices | |
US20240323608A1 (en) | Dynamics processing across devices with differing playback capabilities | |
RU2783150C1 (en) | Dynamic processing in devices with different playback functionalities | |
RU2818982C2 (en) | Acoustic echo cancellation control for distributed audio devices | |
AU2023314100A1 (en) | Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds |