RU2846304C1 - Methods, apparatus and systems for expansion of three degrees of freedom (3dof+) mpeg-h 3d audio - Google Patents
Methods, apparatus and systems for expansion of three degrees of freedom (3dof+) mpeg-h 3d audioInfo
- Publication number
- RU2846304C1 RU2846304C1 RU2024125007A RU2024125007A RU2846304C1 RU 2846304 C1 RU2846304 C1 RU 2846304C1 RU 2024125007 A RU2024125007 A RU 2024125007A RU 2024125007 A RU2024125007 A RU 2024125007A RU 2846304 C1 RU2846304 C1 RU 2846304C1
- Authority
- RU
- Russia
- Prior art keywords
- listener
- head
- displacement
- audio
- information
- Prior art date
Links
Abstract
Description
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS
Данная заявка претендует на приоритет следующих приоритетных заявок: предварительная заявка США 62/654915 (ссылка: D18045USP1), поданная 9 апреля 2018 г.; предварительная заявка США 62/695446 (ссылка: D18045USP2), поданная 9 июля 2018 г., и предварительная заявка США 62/823159 (ссылка: D18045USP3), поданная 25 марта 2019 г., которые включены в данную заявку посредством ссылки.This application claims the benefit of the following priority applications: U.S. Provisional Application No. 62/654,915 (Ref. D18045USP1), filed April 9, 2018; U.S. Provisional Application No. 62/695,446 (Ref. D18045USP2), filed July 9, 2018; and U.S. Provisional Application No. 62/823,159 (Ref. D18045USP3), filed March 25, 2019, which are incorporated herein by reference.
ОБЛАСТЬ ТЕХНИКИAREA OF TECHNOLOGY
Настоящее изобретение относится к способам и аппарату для обработки информации о положении, указывающей положение звукового объекта, и информации, указывающей смещение положения головы слушателя.The present invention relates to methods and apparatus for processing position information indicating the position of a sound object and information indicating a displacement of the position of a listener's head.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
В первом издании (15 октября 2015 г.) и редакциях 1-4 стандарта ISO/IEC 23008-3 MPEG-H 3D Audio не представлено обеспечение небольших поступательных движений головы пользователя в среде трех степеней свободы (Three Degrees of Freedom, 3DoF).The first edition (15 October 2015) and revisions 1-4 of the ISO/IEC 23008-3 MPEG-H 3D Audio standard did not provide support for small translational user head movements in a Three Degrees of Freedom (3DoF) environment.
КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE ESSENCE OF THE INVENTION
В первом издании (15 октября 2015 г.) и редакциях 1-4 стандарта ISO/IEC 23008-3 MPEG-H 3D Audio представлена функциональность для возможности среды 3DoF, где пользователь (слушатель) выполняет действия поворота головы. Однако такая функциональность в лучшем случае поддерживает только передачу сигнала о поворотном смещении сцены и соответствующий рендеринг. Это означает, что звуковая сцена может оставаться неподвижной в пространстве при изменении ориентации головы слушателя, что соответствует свойству 3DoF. Однако отсутствует возможность учета небольшого поступательного движения головы пользователя внутри настоящей экосистемы MPEG-H 3D Audio.The first edition (15 October 2015) and Editions 1-4 of the ISO/IEC 23008-3 MPEG-H 3D Audio standard introduced functionality to enable a 3DoF environment where the user (listener) performs head-turning actions. However, such functionality at best only supports signaling and rendering of the rotational scene displacement. This means that the sound stage can remain stationary in space while the listener's head orientation changes, which is the 3DoF property. However, there is no way to account for the small translational movement of the user's head within a true MPEG-H 3D Audio ecosystem.
Таким образом, существует необходимость в способах и аппарате для обработки информации о положении звуковых объектов, которые могут учитывать небольшое поступательное движение головы пользователя потенциально в сочетании с поворотным движением головы пользователя.Thus, there is a need for methods and apparatus for processing position information of sound objects that can take into account a small translational movement of the user's head, potentially in combination with a rotational movement of the user's head.
В настоящем изобретении представлены аппарат и системы для обработки информации о положении, имеющие признаки соответствующих независимых и зависимых пунктов формулы изобретения.The present invention provides apparatus and systems for processing position information having the features of the corresponding independent and dependent claims of the invention.
Согласно одному аспекту настоящего изобретения описан способ обработки информации о положении, указывающей положение звукового объекта, причем обработка может быть совместима со стандартом MPEG-H 3D Audio. Положение объекта может быть использовано для рендеринга звукового объекта. Звуковой объект может быть включен в звуковое содержимое на основе объектов наряду с информацией о его положении. Информация о положении может представлять собой (часть) метаданные для звукового объекта. Звуковое содержимое (например, звуковой объект вместе с информацией о его положении) может быть передано в кодированном звуковом битовом потоке. Способ может включать прием звукового содержимого (например, кодированного звукового битового потока). Способ может включать получение информации об ориентации слушателя, указывающей ориентацию головы слушателя. Слушателя могут называть пользователем, например декодера, выполняющего способ. Ориентация головы слушателя (ориентация слушателя) может представлять собой ориентацию головы слушателя относительно номинальной ориентации. Способ может дополнительно включать получение информации о смещении слушателя, указывающей смещение головы слушателя. Смещение головы слушателя может представлять собой смещение относительно номинального положения прослушивания. Номинальное положение прослушивания (или номинальное положение слушателя) может представлять собой положение по умолчанию (например, заданное положение, ожидаемое положение для головы слушателя или зону наилучшего восприятия при расположении динамиков). Информация об ориентации слушателя и информация о смещении слушателя могут быть получены посредством входного интерфейса декодера MPEG-H 3D Audio. Информация об ориентации слушателя и информация о смещении слушателя могут быть выведены на основании информации от датчиков. Сочетание информации об ориентации и информации о положении могут называть информацией о позиции. Способ может дополнительно включать определение положения объекта из информации о положении. Например, положение объекта может быть извлечено из информации о положении. Определение (например, извлечение) положения объекта может быть дополнительно основано на информации относительно геометрии расположения динамиков одного или более динамиков в среде прослушивания. Положение объекта также могут называть положением канала звукового объекта. Способ может дополнительно включать модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта. Модификация положения объекта может относиться к корректировке положения объекта для смещения головы слушателя из номинального положения прослушивания. Иными словами, модификация положения объекта может относиться к применению компенсации смещения положения к положению объекта. Способ может также дополнительно включать дополнительную модификацию модифицированного положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к модифицированному положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания). Дополнительная модификация модифицированного положения объекта для рендеринга звукового объекта может включать поворотное смещение звуковой сцены.According to one aspect of the present invention, a method is described for processing position information indicating the position of an audio object, wherein the processing may be compatible with the MPEG-H 3D Audio standard. The position of the object may be used for rendering the audio object. The audio object may be included in object-based audio content along with the position information. The position information may be (part of) metadata for the audio object. The audio content (e.g., the audio object along with the position information) may be transmitted in an encoded audio bitstream. The method may include receiving the audio content (e.g., the encoded audio bitstream). The method may include obtaining listener orientation information indicating the orientation of the listener's head. The listener may be called a user, such as a decoder performing the method. The listener's head orientation (listener orientation) may be an orientation of the listener's head relative to the nominal orientation. The method may further include obtaining listener offset information indicating the offset of the listener's head. The listener head offset may be an offset relative to the nominal listening position. The nominal listening position (or nominal listener position) may be a default position (e.g., a specified position, an expected position for the listener's head, or a sweet spot in a speaker arrangement). The listener orientation information and the listener offset information may be obtained by means of an input interface of the MPEG-H 3D Audio decoder. The listener orientation information and the listener offset information may be derived based on information from sensors. The combination of orientation information and position information may be referred to as position information. The method may further include determining the position of an object from the position information. For example, the position of an object may be extracted from the position information. Determining (e.g., extracting) the position of an object may further be based on information regarding the geometry of the speaker arrangement of one or more speakers in the listening environment. The position of an object may also be referred to as a channel position of the audio object. The method may further include modifying the position of the object based on the listener offset information by applying a translation to the position of the object. The modification of the object position may relate to adjusting the object position to offset the listener's head from the nominal listening position. In other words, the modification of the object position may relate to applying position offset compensation to the object position. The method may also further include further modifying the modified object position based on listener orientation information, such as by applying a rotational transformation to the modified object position (e.g., rotation relative to the listener's head or the nominal listening position). The further modification of the modified object position for rendering the audio object may include a rotational offset of the sound stage.
Предложенный способ, приспособленный так, как описано выше, предоставляет более реалистичное ощущение от прослушивания, особенно для звуковых объектов, которые находятся вблизи головы слушателя. В дополнение к трем (поворотным) степеням свободы, обычно предлагаемым слушателю в среде 3DoF, в предложенном способе также могут учитывать поступательные движения головы слушателя. Это позволяет слушателю достигать близких звуковых объектов с разных углов и даже сторон. Например, слушатель может слушать звуковой объект «комар», который расположен вблизи головы слушателя, с разных углов за счет небольшого сдвига своей головы, возможно в дополнение к повороту его головы. В результате, предложенный способ может обеспечить улучшенное, более реалистичное, погружающее ощущение от прослушивания для слушателя.The proposed method, adapted as described above, provides a more realistic listening experience, especially for sound objects that are close to the listener's head. In addition to the three (rotational) degrees of freedom typically offered to the listener in a 3DoF environment, the proposed method can also take into account the translational movements of the listener's head. This allows the listener to reach close sound objects from different angles and even sides. For example, the listener can listen to the sound object "mosquito", which is located near the listener's head, from different angles by slightly shifting his head, possibly in addition to turning his head. As a result, the proposed method can provide an improved, more realistic, immersive listening experience for the listener.
В некоторых вариантах осуществления модификация положения объекта и дополнительная модификация модифицированного положения объекта могут быть выполнены таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с дополнительным модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания и ориентации головы слушателя относительно номинальной ориентации. Соответственно, звуковой объект могут воспринимать как перемещающийся относительно головы слушателя, когда голова слушателя выполняет смещение из номинального положения прослушивания. Подобным образом, звуковой объект могут воспринимать как поворачивающийся относительно головы слушателя, когда голова слушателя выполняет изменение ориентации из номинальной ориентации. Один или более динамиков могут представлять собой, например, часть гарнитуры или могут представлять собой часть композиции динамиков (например, композиции динамиков 2.1, 5.1, 7.1 и т.д.).In some embodiments, the modification of the object position and the further modification of the modified object position may be performed in such a way that the audio object, after rendering on one or more real or virtual speakers in accordance with the further modified object position, is psychoacoustically perceived by the listener as originating from a fixed position relative to the nominal listening position, regardless of the displacement of the listener's head from the nominal listening position and the orientation of the listener's head relative to the nominal orientation. Accordingly, the audio object may be perceived as moving relative to the listener's head, when the listener's head performs a displacement from the nominal listening position. Similarly, the audio object may be perceived as rotating relative to the listener's head, when the listener's head performs an orientation change from the nominal orientation. The one or more speakers may be, for example, part of a headset or may be part of a speaker composition (for example, a 2.1, 5.1, 7.1 speaker composition, etc.).
В некоторых вариантах осуществления модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, modifying the position of an object based on information about the displacement of a listener may be performed by translating the position of the object using a vector that is positively correlated with the amplitude and negatively correlated with the direction of the vector of displacement of the listener's head from the nominal listening position.
Таким образом, обеспечивают, что близкие звуковые объекты воспринимаются слушателем как перемещающиеся в соответствии с движением его головы. Это способствует более реалистичному ощущению от прослушивания этих звуковых объектов.This ensures that nearby sound objects are perceived by the listener as moving in accordance with the movement of his head. This contributes to a more realistic sensation of listening to these sound objects.
В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения. Например, абсолютное значение смещения может составлять не более 0,5 м. Смещение может быть выражено в декартовых координатах (например, x, y, z) или сферических координатах (например, азимут, угол подъема, радиус).In some embodiments, the listener displacement information may indicate a displacement of the listener's head from the nominal listening position due to a small positional displacement. For example, the absolute value of the displacement may be no more than 0.5 m. The displacement may be expressed in Cartesian coordinates (e.g., x, y, z) or spherical coordinates (e.g., azimuth, elevation angle, radius).
В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя. Таким образом, слушатель может осуществить смещение без движения нижней частью тела. Например, смещение головы слушателя может быть осуществлено, когда слушатель сидит на стуле.In some embodiments, the listener displacement information may indicate a displacement of the listener's head from the nominal listening position, which may be achieved by moving the listener's upper body and/or head. In this way, the listener may perform the displacement without moving the lower body. For example, the listener's head displacement may be performed when the listener is sitting on a chair.
В некоторых вариантах осуществления информация о положении может содержать указание расстояния от звукового объекта до номинального положения прослушивания. Расстояние (радиус) может быть менее 0,5 м. Например, расстояние может составлять менее 1 см. Альтернативно расстояние от звукового объекта до номинального положения прослушивания может быть установлено на значение по умолчанию посредством декодера.In some embodiments, the position information may comprise an indication of the distance from the audio object to the nominal listening position. The distance (radius) may be less than 0.5 m. For example, the distance may be less than 1 cm. Alternatively, the distance from the audio object to the nominal listening position may be set to a default value by the decoder.
В некоторых вариантах осуществления информация об ориентации слушателя может содержать информацию о рыскании, тангаже и крене головы слушателя. Рыскание, тангаж, крен могут быть предоставлены относительно номинальной ориентации (например, исходной ориентации) головы слушателя.In some embodiments, the listener orientation information may comprise information about the yaw, pitch, and roll of the listener's head. The yaw, pitch, and roll may be provided relative to a nominal orientation (e.g., initial orientation) of the listener's head.
В некоторых вариантах осуществления информация о смещении слушателя может содержать информацию о смещении головы слушателя из номинального положения прослушивания, выраженную в декартовых координатах или сферических координатах. Таким образом, смещение может быть выражено в рамках координат x, y, z для декартовых координат и в рамках координат азимута, угла подъема, радиуса для сферических координат.In some embodiments, the listener displacement information may comprise information about the displacement of the listener's head from the nominal listening position, expressed in Cartesian coordinates or spherical coordinates. Thus, the displacement may be expressed in terms of x, y, z coordinates for Cartesian coordinates and in terms of azimuth, elevation angle, radius coordinates for spherical coordinates.
В некоторых вариантах осуществления способ может дополнительно включать обнаружение ориентации головы слушателя посредством носимого и/или стационарного оборудования. Подобным образом, способ может дополнительно включать обнаружение смещения головы слушателя из номинального положения прослушивания посредством носимого и/или стационарного оборудования. Носимое оборудование может представлять собой, соответствовать и/или включать, например, гарнитуру или гарнитуру для дополненной реальности (augmented reality, AR)/виртуальной реальности (virtual reality, VR). Стационарное оборудование может представлять собой, соответствовать и/или содержать, например, датчики-камеры. Это обеспечивает получение точной информации о смещении и/или ориентации головы слушателя и, тем самым, обеспечивает реалистичную обработку близких звуковых объектов в соответствии с ориентацией и/или смещением.In some embodiments, the method may further include detecting the orientation of the listener's head by means of wearable and/or stationary equipment. Similarly, the method may further include detecting the displacement of the listener's head from the nominal listening position by means of wearable and/or stationary equipment. The wearable equipment may be, correspond to and/or include, for example, a headset or an augmented reality (AR)/virtual reality (VR) headset. The stationary equipment may be, correspond to and/or include, for example, camera sensors. This ensures that accurate information is obtained about the displacement and/or orientation of the listener's head and, thus, ensures realistic processing of nearby sound objects in accordance with the orientation and/or displacement.
В некоторых вариантах осуществления способ может дополнительно включать рендеринг звукового объекта на одном или более реальных или виртуальных динамиках в соответствии с дополнительно модифицированным положением объекта. Например, рендеринг звукового объекта может быть выполнен для левого и правого динамиков гарнитуры.In some embodiments, the method may further include rendering the audio object on one or more real or virtual speakers in accordance with the further modified position of the object. For example, rendering the audio object may be performed for the left and right speakers of the headset.
В некоторых вариантах осуществления рендеринг могут выполнять с учетом акустического поглощения для небольших расстояний от звукового объекта до головы слушателя на основании функций моделирования восприятия звука (head-related transfer functions, HRTF) для головы слушателя. Таким образом, рендеринг близких звуковых объектов будет восприниматься слушателем как еще более реалистичный.In some embodiments, rendering may be performed taking into account acoustic absorption for short distances from the sound object to the listener's head based on head-related transfer functions (HRTFs) for the listener's head. In this way, rendering of close sound objects will be perceived by the listener as even more realistic.
В некоторых вариантах осуществления дополнительно модифицированное положение объекта могут отрегулировать для формата ввода, используемого модулем рендеринга MPEG-H 3D Audio. В некоторых вариантах осуществления рендеринг могут выполнять с использованием модуля рендеринга MPEG-H 3D Audio. В некоторых вариантах осуществления обработку могут выполнять с использованием декодера MPEG-H 3D Audio. В некоторых вариантах осуществления обработку могут выполнять посредством блока смещения сцены декодера MPEG-H 3D Audio. Соответственно, предложенный способ обеспечивает реализацию ограниченного ощущения шести степеней свободы (Six Degrees of Freedom, 6DoF) (т.е. 3DoF+) в рамках стандарта MPEG-H 3D Audio.In some embodiments, the further modified position of the object may be adjusted for the input format used by the MPEG-H 3D Audio rendering module. In some embodiments, rendering may be performed using the MPEG-H 3D Audio rendering module. In some embodiments, processing may be performed using the MPEG-H 3D Audio decoder. In some embodiments, processing may be performed by the scene shifter of the MPEG-H 3D Audio decoder. Accordingly, the proposed method provides for the implementation of a limited sense of six degrees of freedom (Six Degrees of Freedom, 6DoF) (i.e., 3DoF+) within the MPEG-H 3D Audio standard.
Согласно другому аспекту настоящего изобретения описан дополнительный способ обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Способ может включать получение информации о смещении слушателя, указывающую смещение головы слушателя. Способ может дополнительно включать определение положения объекта из информации о положении. Способ может также дополнительно включать модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта.According to another aspect of the present invention, an additional method for processing position information indicating the position of an object for an audio object is described. The position of the object can be used to render the audio object. The method can include obtaining listener displacement information indicating the displacement of the listener's head. The method can further include determining the position of the object from the position information. The method can also further include modifying the position of the object based on the listener displacement information by applying a translational movement to the position of the object.
Предложенный способ, приспособленный так, как описано выше, предоставляет более реалистичное ощущение от прослушивания, особенно для звуковых объектов, которые находятся вблизи головы слушателя. За счет возможности учета небольших поступательных движений головы слушателя предложенный способ позволяет слушателю достигать близких звуковых объектов с разных углов и даже сторон. В результате, предложенный способ может обеспечить улучшенное, более реалистичное, погружающее ощущение от прослушивания для слушателя.The proposed method, adapted as described above, provides a more realistic listening experience, especially for sound objects that are close to the listener's head. Due to the ability to take into account small translational movements of the listener's head, the proposed method allows the listener to reach close sound objects from different angles and even sides. As a result, the proposed method can provide an improved, more realistic, immersive listening experience for the listener.
В некоторых вариантах осуществления модификация положения объекта на основании информации о смещении слушателя может быть выполнена таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания.In some embodiments, the modification of the object position based on the listener displacement information may be performed in such a way that the sound object, after rendering on one or more real or virtual speakers in accordance with the modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position, regardless of the listener's head displacement from the nominal listening position.
В некоторых вариантах осуществления модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, modifying the position of an object based on information about the displacement of a listener may be performed by translating the position of the object using a vector that is positively correlated with the amplitude and negatively correlated with the direction of the vector of displacement of the listener's head from the nominal listening position.
Согласно другому аспекту настоящего изобретения описан дополнительный способ обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Способ может включать получение информации об ориентации слушателя, указывающей ориентацию головы слушателя. Способ может дополнительно включать определение положения объекта из информации о положении. Способ может также дополнительно включать модификацию положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания).According to another aspect of the present invention, an additional method for processing position information indicating the position of an object for an audio object is described. The position of the object can be used for rendering the audio object. The method can include obtaining listener orientation information indicating the orientation of the listener's head. The method can further include determining the position of the object from the position information. The method can also further include modifying the position of the object based on the listener orientation information, such as by applying a rotational transformation to the position of the object (e.g., rotation relative to the listener's head or a nominal listening position).
Предложенный способ, приспособленный так, как описано выше, может учитывать ориентацию головы слушателя для обеспечения слушателю более реалистичного ощущения от прослушивания.The proposed method, adapted as described above, can take into account the orientation of the listener's head to provide the listener with a more realistic listening experience.
В некоторых вариантах осуществления модификация положения объекта на основании информации об ориентации слушателя может быть выполнена таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от ориентации головы слушателя относительно номинальной ориентации.In some embodiments, the modification of the object position based on the listener orientation information may be performed in such a way that the sound object, after rendering on one or more real or virtual speakers in accordance with the modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position, regardless of the orientation of the listener's head relative to the nominal orientation.
Согласно другому аспекту настоящего изобретения описан аппарат для обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Аппарат может содержать процессор и запоминающее устройство, соединенное с процессором. Процессор может быть приспособлен для получения информации об ориентации слушателя, указывающей ориентацию головы слушателя. Процессор может быть дополнительно приспособлен для получения информации о смещении слушателя, указывающей смещение головы слушателя. Процессор может быть дополнительно приспособлен для определения положения объекта из информации о положении. Процессор может быть дополнительно приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством применения поступательного перемещения к положению объекта. Процессор может быть также дополнительно приспособлен для дополнительной модификации модифицированного положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к модифицированному положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания).According to another aspect of the present invention, an apparatus for processing position information indicating an object position for an audio object is described. The object position can be used for rendering the audio object. The apparatus can comprise a processor and a memory device coupled to the processor. The processor can be adapted to obtain listener orientation information indicating the orientation of the listener's head. The processor can be further adapted to obtain listener displacement information indicating the displacement of the listener's head. The processor can be further adapted to determine the object position from the position information. The processor can be further adapted to modify the object position based on the listener displacement information by applying a translation to the object position. The processor can also be further adapted to further modify the modified object position based on the listener orientation information, for example by applying a rotational transformation to the modified object position (for example, rotation relative to the listener's head or a nominal listening position).
В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта и дополнительной модификации модифицированного положения объекта таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с дополнительным модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания и ориентации головы слушателя относительно номинальной ориентации.In some embodiments, the processor may be adapted to modify the position of the object and further modify the modified position of the object such that the audio object, after rendering on one or more real or virtual speakers in accordance with the further modified position of the object, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position, regardless of the displacement of the listener's head from the nominal listening position and the orientation of the listener's head relative to the nominal orientation.
В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, the processor may be adapted to modify the position of the object based on the listener displacement information by translating the position of the object using a vector that is positively correlated with the amplitude and negatively correlated with the direction of the listener's head displacement vector from the nominal listening position.
В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения.In some embodiments, the listener displacement information may indicate a displacement of the listener's head from the nominal listening position due to a small positional shift.
В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя.In some embodiments, the listener displacement information may indicate a displacement of the listener's head from a nominal listening position, which may be achieved by movement of the listener's upper body and/or head.
В некоторых вариантах осуществления информация о положении может содержать указание расстояния от звукового объекта до номинального положения прослушивания.In some embodiments, the position information may comprise an indication of the distance from the audio object to the nominal listening position.
В некоторых вариантах осуществления информация об ориентации слушателя может содержать информацию о рыскании, тангаже и крене головы слушателя.In some embodiments, the listener orientation information may include information about the yaw, pitch, and roll of the listener's head.
В некоторых вариантах осуществления информация о смещении слушателя может содержать информацию о смещении головы слушателя из номинального положения прослушивания, выраженную в декартовых координатах или сферических координатах.In some embodiments, the listener displacement information may comprise information about the displacement of the listener's head from the nominal listening position, expressed in Cartesian coordinates or spherical coordinates.
В некоторых вариантах осуществления аппарат может дополнительно содержать носимое и/или стационарное оборудование для обнаружения ориентации головы слушателя. В некоторых вариантах осуществления аппарат может дополнительно содержать носимое и/или стационарное оборудование для обнаружения смещения головы слушателя из номинального положения прослушивания.In some embodiments, the apparatus may further comprise wearable and/or stationary equipment for detecting the orientation of the listener's head. In some embodiments, the apparatus may further comprise wearable and/or stationary equipment for detecting the displacement of the listener's head from the nominal listening position.
В некоторых вариантах осуществления процессор может быть дополнительно приспособлен для выполнения рендеринга звукового объекта на одном или более реальных или виртуальных динамиках в соответствии с дополнительно модифицированным положением объекта.In some embodiments, the processor may be further adapted to render the audio object on one or more real or virtual speakers in accordance with the further modified position of the object.
В некоторых вариантах осуществления процессор может быть приспособлен для выполнения рендеринга с учетом акустического поглощения для небольших расстояний от звукового объекта до головы слушателя на основании HRTF для головы слушателя.In some embodiments, the processor may be adapted to perform acoustic absorption-aware rendering for short distances from the sound object to the listener's head based on the HRTF for the listener's head.
В некоторых вариантах осуществления процессор может быть приспособлен для регулирования дополнительно модифицированного положения объекта для формата ввода, используемого модулем рендеринга MPEG-H 3D. В некоторых вариантах осуществления рендеринг могут выполнять с использованием модуля рендеринга MPEG-H 3D Audio. То есть, процессор может реализовывать модуль рендеринга MPEG-H 3D Audio. В некоторых вариантах осуществления процессор может быть приспособлен для реализации декодера MPEG-H 3D Audio. В некоторых вариантах осуществления процессор может быть приспособлен для реализации блока смещения сцены декодера MPEG-H 3D Audio.In some embodiments, the processor may be adapted to adjust the further modified position of the object for the input format used by the MPEG-H 3D rendering module. In some embodiments, the rendering may be performed using the MPEG-H 3D Audio rendering module. That is, the processor may implement the MPEG-H 3D Audio rendering module. In some embodiments, the processor may be adapted to implement the MPEG-H 3D Audio decoder. In some embodiments, the processor may be adapted to implement the scene shifter of the MPEG-H 3D Audio decoder.
Согласно другому аспекту настоящего изобретения описан дополнительный аппарат для обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Аппарат может содержать процессор и запоминающее устройство, соединенное с процессором. Процессор может быть приспособлен для получения информации о смещении слушателя, указывающей смещение головы слушателя. Процессор может быть дополнительно приспособлен для определения положения объекта из информации о положении. Процессор может быть дополнительно приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством применения поступательного перемещения к положению объекта.According to another aspect of the present invention, an additional apparatus for processing position information indicating the position of an object for an audio object is described. The position of the object can be used for rendering the audio object. The apparatus can comprise a processor and a memory device connected to the processor. The processor can be adapted to obtain listener displacement information indicating the displacement of the listener's head. The processor can be further adapted to determine the position of the object from the position information. The processor can be further adapted to modify the position of the object based on the listener displacement information by applying a translational movement to the position of the object.
В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации о смещении слушателя таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания.In some embodiments, the processor may be adapted to modify the position of the object based on information about the displacement of the listener such that the audio object, after rendering on one or more real or virtual speakers in accordance with the modified position of the object, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position, regardless of the displacement of the listener's head from the nominal listening position.
В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, the processor may be adapted to modify the position of the object based on the listener displacement information by translating the position of the object using a vector that is positively correlated with the amplitude and negatively correlated with the direction of the listener's head displacement vector from the nominal listening position.
Согласно другому аспекту настоящего изобретения описан дополнительный аппарат для обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Аппарат может содержать процессор и запоминающее устройство, соединенное с процессором. Процессор может быть приспособлен для получения информации об ориентации слушателя, указывающей ориентацию головы слушателя. Процессор может быть дополнительно приспособлен для определения положения объекта из информации о положении. Процессор может быть также дополнительно приспособлен для модификации положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к модифицированному положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания).According to another aspect of the present invention, an additional apparatus for processing position information indicating the position of an object for an audio object is described. The position of the object can be used for rendering the audio object. The apparatus can comprise a processor and a memory device connected to the processor. The processor can be adapted to obtain listener orientation information indicating the orientation of the listener's head. The processor can be further adapted to determine the position of the object from the position information. The processor can also be further adapted to modify the position of the object based on the listener orientation information, for example by applying a rotational transformation to the modified position of the object (for example, rotation relative to the listener's head or the nominal listening position).
В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации об ориентации слушателя таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от ориентации головы слушателя относительно номинальной ориентации.In some embodiments, the processor may be adapted to modify the position of the object based on information about the orientation of the listener such that the audio object, after rendering on one or more real or virtual speakers in accordance with the modified position of the object, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position, regardless of the orientation of the listener's head relative to the nominal orientation.
Согласно еще одному аспекту описана система. Система может содержать аппарат согласно любому из вышепредставленных аспектов и носимое и/или стационарное оборудование, способное обнаружить ориентацию головы слушателя и обнаружить смещение головы слушателя.According to another aspect, a system is described. The system may comprise an apparatus according to any of the above aspects and wearable and/or stationary equipment capable of detecting the orientation of the listener's head and detecting the displacement of the listener's head.
Следует понимать, что этапы способа и характерные признаки аппарата можно взаимно заменять различными способами. В частности, детали раскрытого способа могут быть реализованы в виде аппарата, приспособленного для выполнения некоторых или всех этапов способа, и наоборот, как будет понятно специалисту. В частности, следует понимать, что аппарат согласно настоящему изобретению может относиться к аппарату для реализации или исполнения способов согласно вышеприведенным вариантам осуществления и их вариациям и что соответствующие утверждения, сделанные в отношении способов, аналогичным образом применяются для соответствующего аппарата. Подобным образом, следует понимать, что способы согласно настоящему изобретению могут относиться к способам работы с аппаратом согласно вышеприведенным вариантам осуществления и их вариациям и что соответствующие утверждения, сделанные в отношении аппарата, аналогичным образом применяются для соответствующих способов.It should be understood that the method steps and the characteristic features of the apparatus can be interchanged in various ways. In particular, the details of the disclosed method can be implemented as an apparatus adapted to perform some or all of the method steps, and vice versa, as will be understood by a person skilled in the art. In particular, it should be understood that the apparatus according to the present invention can refer to an apparatus for implementing or performing the methods according to the above embodiments and variations thereof, and that the corresponding statements made with respect to the methods similarly apply to the corresponding apparatus. Likewise, it should be understood that the methods according to the present invention can refer to methods of operating the apparatus according to the above embodiments and variations thereof, and that the corresponding statements made with respect to the apparatus similarly apply to the corresponding methods.
КРАТКОЕ ОПИСАНИЕ ФИГУРBRIEF DESCRIPTION OF THE FIGURES
Ниже изобретение разъясняется иллюстративным образом со ссылкой на сопроводительные графические материалы, в которых:Below, the invention is explained illustratively with reference to the accompanying graphic materials, in which:
на фиг. 1 схематически показан пример системы MPEG-H 3D Audio; Fig. 1 shows a schematic example of an MPEG-H 3D Audio system;
на фиг. 2 схематически показан пример системы MPEG-H 3D Audio согласно настоящему изобретению; Fig. 2 schematically shows an example of an MPEG-H 3D Audio system according to the present invention;
на фиг. 3 схематически показан пример системы рендеринга звука согласно настоящему изобретению; Fig. 3 schematically shows an example of a sound rendering system according to the present invention;
на фиг. 4 схематически показана примерная система осей декартовых координат и их отношения к сферическим координатам; и Fig. 4 shows schematically an exemplary system of Cartesian coordinate axes and their relationship to spherical coordinates; and
на фиг. 5 показана блок-схема, схематически иллюстрирующая пример способа обработки информации о положении для звукового объекта согласно настоящему изобретению. Fig. 5 is a block diagram schematically illustrating an example of a method for processing position information for an audio object according to the present invention.
ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION
В контексте настоящего документа 3DoF обычно является системой, которая может правильно обрабатывать движение головы пользователя, в частности поворот головы, характеризующийся тремя параметрами (например, рыскание, тангаж, крен). Такие системы часто доступны в различных игровых системах, таких как системы виртуальной реальности (VR)/дополненной реальности (AR)/смешанной реальности (Mixed Reality, MR), или в других звуковых средах такого типа.In the context of this document, 3DoF is typically a system that can correctly handle the user's head movement, in particular head rotation characterized by three parameters (e.g., yaw, pitch, roll). Such systems are often available in various gaming systems, such as virtual reality (VR)/augmented reality (AR)/mixed reality (MR) systems, or other similar audio environments.
В контексте настоящего документа пользователя (например, декодера звука или системы воспроизведения, содержащей декодер звука) могут также называть «слушателем».In the context of this document, a user (e.g. an audio decoder or a playback system containing an audio decoder) may also be referred to as a "listener".
В контексте настоящего документа 3DoF+ должно обозначать, что в дополнение к движению головы пользователя, которое может быть правильно обработано посредством системы 3DoF, также должны быть обработаны поступательные движения.In the context of this document, 3DoF+ shall mean that in addition to the user's head movement, which can be correctly processed by a 3DoF system, translational movements shall also be processed.
В контексте настоящего документа выражение «небольшой» должно указывать, что движения ограничены пороговым значением, которое, как правило, составляет не более 0,5 метра. Это означает, что движения не превышают 0,5 метра от первоначального положения головы пользователя. Например, движения пользователя ограничены вследствие того, что он сидит на стуле.In the context of this document, the expression "small" shall indicate that the movements are limited to a threshold value, which is typically no more than 0.5 meters. This means that the movements do not exceed 0.5 meters from the initial position of the user's head. For example, the user's movements are limited due to the fact that he or she is sitting on a chair.
В контексте настоящего документа термин «MPEG-H 3D Audio» относится к техническому описанию, указанному в стандарте ISO/IEC 23008-3 и/или в любых будущих редакциях, изданиях или других версиях стандарта ISO/IEC 23008-3.In the context of this document, the term "MPEG-H 3D Audio" refers to the technical description specified in ISO/IEC 23008-3 and/or any future revisions, editions or other versions of ISO/IEC 23008-3.
В контексте стандартов звука, предоставленных организацией MPEG, различие между 3DoF и 3DoF+ может быть определено следующим образом:In the context of audio standards provided by the MPEG organization, the difference between 3DoF and 3DoF+ can be defined as follows:
• 3DoF: позволяет пользователю испытывать движение рыскания, тангажа, крена (например, головы пользователя);• 3DoF: allows the user to experience yaw, pitch, roll motion (eg of the user's head);
• 3DoF+: позволяет пользователю испытывать движение рыскания, тангажа, крена и ограниченное поступательное движение (например, головы пользователя), например, во время сидения в кресле.• 3DoF+: Allows the user to experience yaw, pitch, roll, and limited translational motion (e.g. of the user's head), such as while sitting in a chair.
Ограниченные (небольшие) поступательные движения головы могут представлять собой движения, ограниченные конкретным радиусом движения. Например, движения могут быть ограничены вследствие сидячего положения пользователя, например, без использования нижней части тела. Небольшие поступательные движения головы могут относиться или соответствовать смещению головы пользователя относительно номинального положения прослушивания. Номинальное положение прослушивания (или номинальное положение слушателя) может представлять собой положение по умолчанию (такое как, например, заданное положение, ожидаемое положение для головы слушателя или зона наилучшего восприятия при расположении динамиков).Limited (small) translational head movements may be movements that are limited to a specific radius of motion. For example, movements may be limited due to the user's sitting position, such as without using the lower body. Small translational head movements may refer to or correspond to the displacement of the user's head relative to the nominal listening position. The nominal listening position (or nominal listener position) may be a default position (such as, for example, a target position, an expected position for the listener's head, or the sweet spot of a speaker arrangement).
Восприятие 3DoF+ можно сравнить с ограниченным восприятием 6DoF, при котором поступательные движения могут быть описаны как ограниченные или небольшие движения головой. В одном примере также выполняют рендеринг звука на основании положения и ориентации головы пользователя, включая возможное акустическое поглощение. Рендеринг может быть выполнен с учетом акустического поглощения для небольших расстояний от звукового объекта до головы слушателя, например на основании функций моделирования восприятия звука (HRTF) для головы слушателя.3DoF+ perception can be compared to limited 6DoF perception, in which translational movements can be described as limited or small head movements. In one example, sound is also rendered based on the position and orientation of the user's head, including possible acoustic absorption. Rendering can be performed taking into account acoustic absorption for small distances from the sound object to the listener's head, for example based on the head-related transfer functions (HRTF) of the listener's head.
В отношении способов, систем, аппаратов и других устройств, совместимых с функциональными возможностями, установленными посредством стандарта MPEG-H 3D Audio, которые могут обозначать, что 3DoF+ поддерживается для любой будущей версии (версий) стандартов MPEG, таких как будущие версии всенаправленного мультимедийного формата (например, стандартизированного в будущих версиях MPEG-I), и/или в любых обновлениях для MPEG-H Audio (например, редакциях или более новых стандартах на основании стандарта MPEG-H 3D Audio), или любых связанных или опорных стандартах, которые могут требовать обновления (например, стандарты, в которых уточняют конкретные типы метаданных и сообщений SEI).With respect to methods, systems, apparatus, and other devices compatible with the functionality established by the MPEG-H 3D Audio standard, which may indicate that 3DoF+ is supported for any future version(s) of the MPEG standards, such as future versions of the Omnidirectional Media Format (e.g., as standardized in future versions of MPEG-I), and/or in any updates to MPEG-H Audio (e.g., revisions or newer standards based on the MPEG-H 3D Audio standard), or any related or reference standards that may require an update (e.g., standards that clarify specific types of metadata and SEI messages).
Например, функциональность модуля рендеринга звука, который является нормативным для стандарта звука, установленного в описании MPEG-H 3D Audio, может быть расширена, чтобы включать рендеринг звуковой сцены для точного учета взаимодействия пользователя со звуковой сценой, например, когда пользователь двигает своей головой слегка в стороны.For example, the functionality of the audio rendering module, which is normative for the audio standard specified in the MPEG-H 3D Audio specification, can be extended to include rendering of the sound stage to accurately account for user interaction with the sound stage, such as when the user moves their head slightly from side to side.
Настоящее изобретение предоставляет различные технические преимущества, включая преимущество предоставления MPEG-H 3D Audio, способного обработать варианты использования 3DoF+. В настоящем изобретении расширяют стандарт MPEG-H 3D Audio для поддержки функциональных возможностей 3DoF+.The present invention provides various technical advantages, including the advantage of providing MPEG-H 3D Audio capable of handling 3DoF+ use cases. The present invention extends the MPEG-H 3D Audio standard to support 3DoF+ functionality.
Для поддержки функциональных возможностей 3DoF+ система рендеринга звука должна учитывать ограниченные/небольшие смещения положения головы пользователя/слушателя. Смещения положения должны определять на основании относительного отклонения от начального положения (т.е. положения по умолчанию/номинального положения прослушивания). В одном примере амплитуда этого отклонения (например, отклонения радиуса, которое может быть определено на основании roffset=||P0-P1||), где P0 представляет собой номинальное положение прослушивания, а P1 представляет собой смещенное положение головы слушателя) максимально составляет приблизительно 0,5 м. В другом примере амплитуда отклонения ограничена тем, что представляет собой отклонение, получаемое только тогда, когда пользователь сидит на стуле и не выполняет движения нижней частью тела (однако его голова движется относительно его тела). Это (небольшое) расстояние отклонения обеспечивает очень небольшой (воспринимаемый) уровень и разность панорамирования для отдаленных звуковых объектов. Однако для близких объектов такое небольшое расстояние отклонения может стать значимым для восприятия. Конечно, движение головы слушателя может оказывать влияние на восприятие того, где находится точная локализация звукового объекта. Этот эффект восприятия может оставаться важным (т.е. быть заметным для восприятия пользователя/слушателя) при условии, что отношение между (i) смещением головы пользователя (например, roffset=||P0-P1||)) и расстоянием до звукового объекта (например, r) тригонометрически обеспечивает углы, которые находятся в диапазоне психоакустической способности пользователей обнаруживать направление звука. Такой диапазон может изменяться для разных настроек модуля рендеринга звука, звукового материала и конфигурации проигрывания. Например, предполагая, что диапазон точности локализации составляет, например, +/-3° со свободой движения головы слушателя из стороны в сторону +/-0,25м, это будет соответствовать ~5м расстояния до объекта.In order to support 3DoF+ functionality, the audio rendering system must take into account limited/small offsets in the user/listener's head position. The position offsets must be determined based on the relative offset from the initial position (i.e. the default/nominal listening position). In one example, the amplitude of this offset (e.g. the radius offset, which can be determined based on r offset =||P 0 -P 1 ||), where P 0 is the nominal listening position and P 1 is the offset head position of the listener) is approximately 0.5 m at most. In another example, the offset amplitude is limited to being the offset only obtained when the user is sitting on a chair and does not move his/her lower body (however, his/her head moves relative to his/her body). This (small) offset distance provides very little (perceived) level and panning difference for distant sound objects. However, for close objects, such a small offset distance may become perceptually significant. Of course, the listener's head movement may influence the perception of where the precise localization of a sound object is. This perceptual effect may remain important (i.e., be noticeable to the user/listener's perception) provided that the relationship between (i) the user's head offset (e.g., r offset =||P 0 -P 1 ||)) and the distance to the sound object (e.g., r) trigonometrically yields angles that are within the range of users' psychoacoustic ability to detect the direction of a sound. Such a range may vary for different settings of the sound renderer, the audio material, and the playback configuration. For example, assuming a localization accuracy range of, say, +/- 3° with a side-to-side freedom of the listener's head movement of +/- 0.25m, this would correspond to a distance to the object of ~5m.
Для объектов, которые расположены вблизи слушателя, (например, объектов на расстоянии меньше 1м от пользователя), надлежащая обработка смещения положения головы слушателя является важной для сценариев 3DoF+, поскольку как во время панорамирования, так и во время изменений уровня присутствуют значительные эффекты восприятия.For objects that are located close to the listener (e.g. objects less than 1m away from the user), proper handling of listener head position offset is important for 3DoF+ scenarios, as there are significant perceptual effects during both panning and level changes.
Одним примером обработки объектов вблизи слушателей, например, является случай, когда звуковой объект (например, комар) расположен очень близко к лицу слушателя. Звуковая система, такая как звуковая система, обеспечивающая возможности VR/AR/MR, должна позволять пользователю воспринимать этот звуковой объект со всех сторон и под всеми углами, даже когда пользователь выполняет небольшие поступательные движения головой. Например, пользователь должен иметь возможность точно воспринимать объект (например, комара), даже когда пользователь перемещает свою голову, не двигая нижней частью тела.One example of processing objects near listeners, for example, is when a sound object (e.g., a mosquito) is located very close to the listener's face. A sound system, such as a sound system that enables VR/AR/MR capabilities, should allow the user to perceive this sound object from all sides and at all angles, even when the user makes small translational movements of the head. For example, the user should be able to accurately perceive the object (e.g., a mosquito), even when the user moves his head without moving his lower body.
Однако система, совместимая с текущей версией MPEG-H 3D Audio, не может в настоящее время это корректно обработать. Вместо этого, использование системы, совместимой с системой MPEG-H 3D Audio, приводит к восприятию «комара» с неверного положения относительно пользователя. В сценариях, которые включают исполнение 3DoF+, небольшие поступательные движения должны приводить к значительной разнице в восприятии звукового объекта (например, при движении головой влево звуковой объект «комар» должен восприниматься с правой стороны относительно головы пользователя, и т.д.).However, a system compatible with the current version of MPEG-H 3D Audio cannot currently handle this correctly. Instead, using a system compatible with the MPEG-H 3D Audio system results in the "mosquito" being perceived as being in an incorrect position relative to the user. In scenarios that involve 3DoF+ performance, small translational movements should result in a significant difference in the perception of the sound object (e.g. when moving the head to the left, the "mosquito" sound object should be perceived as being on the right side relative to the user's head, etc.).
Стандарт MPEG-H 3D Audio содержит синтаксис битового потока, который обеспечивает передачу информации о расстоянии до объекта посредством синтаксиса битового потока, например посредством элемента синтаксиса object_metadata() (начиная с 0,5м).The MPEG-H 3D Audio standard contains a bitstream syntax that enables the transmission of object distance information via bitstream syntax, for example via the object_metadata() syntax element (starting at 0.5m).
Элемент синтаксиса prodMetadataConfig() может быть введен в битовый поток, предоставленный стандартом MPEG-H 3D Audio, который может быть использован для оповещения, что объект находится на очень близких расстояниях от слушателя. Например, синтаксис prodMetadataConfig() может оповещать, что расстояние между пользователем и объектом составляет меньше конкретного порогового расстояния (например, меньше 1см).The prodMetadataConfig() syntax element can be inserted into the bitstream provided by the MPEG-H 3D Audio standard, which can be used to signal that an object is at very close distances to the listener. For example, the prodMetadataConfig() syntax can signal that the distance between the user and the object is less than a specific distance threshold (e.g. less than 1cm).
На фиг. 1 и фиг. 2 показано настоящее изобретение на основании рендеринга в наушниках (т.е., когда динамики двигаются вместе с головой слушателя). Fig. 1 and Fig. 2 show the present invention based on headphone rendering (i.e., when the speakers move with the listener's head).
На фиг. 1 показан пример поведения 100 системы, которая совместима с системой MPEG-H 3D Audio. В этом примере предполагают, что голова слушателя расположена в положении P0 103 в момент t0 и перемещается в положение P1 104 в момент t1>t0. Пунктирные круги вокруг положений P0 и P1 указывают допустимую область движения 3DoF+ (например, с радиусом 0,5м). Положение A 101 указывает переданное положение объекта (в момент t0 и момент t1, т.е. предполагают, что переданное положение объекта является постоянным в течение некоторого времени). Положение A также указывает положение объекта, рендеринг которого выполняют посредством модуля рендеринга MPEG-H 3D Audio в момент t0. Положение B 102 указывает положение объекта, рендеринг которого выполняют посредством MPEG-H 3D Audio в момент t1. Вертикальные линии, проходящие вверх от положений P0 и P1, указывают соответствующие ориентации (например, направления обзора) головы слушателя в моменты t0 и t1. Смещение головы пользователя между положением P0 и положением P1 может быть представлено посредством roffset=||P0-P1|| 106. Если слушатель находится в положении по умолчанию (номинальное положение прослушивания) P0 103 в момент t0, он будет воспринимать звуковой объект (например, комара) в корректном положении A 101. Если пользователь переместится в положение P1 104 в момент t1, он будет воспринимать звуковой объект в положении B 102, если обработку MPEG-H 3D Audio применяют как текущий стандарт, что вводит показанную ошибку δAB 105. То есть, несмотря на движение головы слушателя, звуковой объект (например, комар) все еще будет восприниматься как расположенный непосредственно перед головой слушателя (т.е. как по существу перемещающийся совместно с головой слушателя). Следует отметить, что введенная ошибка δAB 105 возникает независимо от ориентации головы слушателя. Fig. 1 shows an example of behavior 100 of a system that is compatible with the MPEG-H 3D Audio system. In this example, it is assumed that the listener's head is located at position P 0 103 at time t 0 and moves to position P 1 104 at time t 1 > t 0 . The dotted circles around positions P0 and P1 indicate the allowed 3DoF+ motion region (e.g., with a radius of 0.5 m). Position A 101 indicates the reported position of the object (at time t 0 and time t 1 , i.e., it is assumed that the reported position of the object is constant over some time). Position A also indicates the position of the object rendered by the MPEG-H 3D Audio renderer at time t 0 . Position B 102 indicates the position of the object rendered by MPEG-H 3D Audio at time t 1 . The vertical lines extending upward from positions P 0 and P 1 indicate the corresponding orientations (e.g., viewing directions) of the listener's head at times t 0 and t 1 . The offset of the user's head between position P 0 and position P 1 can be represented by r offset =||P 0 -P 1 || 106. If the listener is in the default position (nominal listening position) P 0 103 at time t 0 , he will perceive the sound object (e.g., a mosquito) at the correct position A 101. If the user moves to position P 1 104 at time t 1 , he will perceive the sound object at position B 102 if MPEG-H 3D Audio processing is applied as the current standard, which introduces the shown error δ AB 105. That is, despite the movement of the listener's head, the sound object (e.g., a mosquito) will still be perceived as being located directly in front of the listener's head (i.e., as essentially moving with the listener's head). It should be noted that the introduced error δ AB 105 occurs regardless of the orientation of the listener's head.
На фиг. 2 показан пример поведения системы относительно системы 200 MPEG-H 3D Audio согласно настоящему изобретению. На фиг. 2 голова слушателя находится в положении P0 203 в момент t0 и перемещается в положение P1 204 в момент t1>t0. Опять же, пунктирные круги вокруг положений P0 и P1 указывают допустимую область движения 3DoF+ (например, с радиусом 0,5м). В пункте 201 показано, что положение A=B, что означает, что переданное положение объекта (в момент t0 и момент t1, т.е. предполагают, что переданное положение объекта) является постоянным в течение некоторого времени. Положение A=B 201 также указывает положение объекта, рендеринг которого выполняют посредством MPEG-H 3D Audio в момент t0 и момент t1. Вертикальные стрелки, проходящие вверх от положений P0 203 и P1 204, указывают соответствующие ориентации (например, направления обзора) головы слушателя в моменты t0 и t1. Если слушатель находится в начальном положении/положении по умолчанию (номинальное положение прослушивания) P0 203 в момент t0, он будет воспринимать звуковой объект (например, комара) в корректном положении A 201. Если пользователь переместится в положение P1 203 в момент t1, он все еще будет воспринимать звуковой объект в положении B 201, которое подобно (например, по существу совпадает с) положению A 201 в соответствии с настоящим изобретением. Таким образом, настоящее изобретение обеспечивает изменение положения пользователя с течением времени (например, из положения P0 203 в положение P1 204), в то же время обеспечивая восприятие звука из той же (пространственно зафиксированной) локации (например, положение A=B 201, и т.д.). Иными словами, звуковой объект (например, комар) движется относительно головы слушателя в соответствии с перемещением (например, отрицательно коррелируя с) головы слушателя. Это позволяет пользователю двигаться вокруг звукового объекта (например, комара) и воспринимать звуковой объект под разными углами или даже с разных сторон. Смещение головы пользователя между положением P0 и положением P1 может быть представлено как roffset=||P0-P1|| 206. Fig. 2 shows an example of the system behavior with respect to the MPEG-H 3D Audio system 200 according to the present invention. In Fig. 2, the listener's head is at position P 0 203 at time t 0 and moves to position P 1 204 at time t 1 > t 0 . Again, the dotted circles around positions P 0 and P 1 indicate the allowed 3DoF+ motion region (e.g. with a radius of 0.5 m). In point 201, it is shown that position A=B, which means that the transmitted position of the object (at time t 0 and time t 1 , i.e. it is assumed that the transmitted position of the object) is constant for some time. Position A=B 201 also indicates the position of the object rendered by MPEG-H 3D Audio at time t 0 and time t 1 . The vertical arrows extending upward from the positions P 0 203 and P 1 204 indicate the corresponding orientations (e.g., viewing directions) of the listener's head at the times t 0 and t 1 . If the listener is at the initial/default position (nominal listening position) P 0 203 at the time t 0 , he will perceive the sound object (e.g., a mosquito) at the correct position A 201. If the user moves to the position P 1 203 at the time t 1 , he will still perceive the sound object at the position B 201, which is similar to (e.g., substantially coincides with) the position A 201 in accordance with the present invention. Thus, the present invention provides for a change in the user's position over time (e.g., from position P 0 203 to position P 1 204), while at the same time providing for the perception of sound from the same (spatially fixed) location (e.g., position A=B 201, etc.). In other words, the sound object (e.g., a mosquito) moves relative to the listener's head in accordance with the movement of (e.g., negatively correlating with) the listener's head. This allows the user to move around the sound object (e.g., a mosquito) and perceive the sound object from different angles or even from different sides. The displacement of the user's head between position P 0 and position P 1 can be represented as r offset = || P 0 - P 1 || 206.
На фиг. 3 показан пример системы 300 рендеринга звука согласно настоящему изобретению. Система 300 рендеринга звука может соответствовать или содержать декодер, такой как, например, декодер MPEG-H 3D audio. Система 300 рендеринга звука может содержать блок 310 смещения звуковой сцены с соответствующим интерфейсом обработки смещения звуковой сцены (например, интерфейсом для данных смещения сцены в соответствии со стандартом MPEG-H 3D Audio). Блок 310 смещения звуковой сцены может выводить положения 321 объекта для рендеринга соответствующих звуковых объектов. Например, блок смещения сцены может выводить метаданные положения объекта для рендеринга соответствующих звуковых объектов. Fig. 3 shows an example of an audio rendering system 300 according to the present invention. The audio rendering system 300 may correspond to or comprise a decoder, such as, for example, an MPEG-H 3D audio decoder. The audio rendering system 300 may comprise a scene shifting unit 310 with a corresponding audio scene shifting processing interface (for example, an interface for scene shifting data in accordance with the MPEG-H 3D Audio standard). The scene shifting unit 310 may output object positions 321 for rendering the corresponding audio objects. For example, the scene shifting unit may output object position metadata for rendering the corresponding audio objects.
Система 300 рендеринга звука может дополнительно содержать модуль 320 рендеринга звукового объекта. Например, модуль рендеринга может состоять из аппаратного обеспечения, программного обеспечения и/или любой частичной или полной обработки, выполненной посредством облачных вычислений, включая различные сервисы, такие как платформы разработки программного обеспечения, серверы, хранилища и программное обеспечение, через интернет, часто называемые «облаком», которые совместимы с описанием, установленным стандартом MPEG-H 3D Audio. Модуль 320 рендеринга звукового объекта может выполнять рендеринг звуковых объектов для одного или более (реальных или виртуальных) динамиков в соответствии с соответствующими положениями объекта (эти положения объекта могут быть модифицированными или дополнительно модифицированными положениями объекта, описанными ниже). Модуль 320 рендеринга звукового объекта может выполнять рендеринг звуковых объектов для наушников и/или громкоговорителей. То есть, модуль 320 рендеринга звукового объекта может генерировать формы волны объекта согласно заданному формату воспроизведения. С этой целью модуль 320 рендеринга звукового объекта может использовать сжатые метаданные объекта. Рендеринг каждого объекта может быть выполнен для конкретных выходных каналов в соответствии с его положением объекта (например, модифицированным положением объекта или дополнительно модифицированным положением объекта). Таким образом, положения объекта также могут называться положениями канала их звуковых объектов. Положения 321 звукового объекта могут быть включены в выходную информацию метаданных положения объекта или метаданных смещения сцены посредством блока 310 смещения сцены.The audio rendering system 300 may further comprise an audio object rendering module 320. For example, the rendering module may consist of hardware, software and/or any partial or complete processing performed by means of cloud computing, including various services such as software development platforms, servers, storages and software, via the Internet, often referred to as a "cloud", which are compatible with the description established by the MPEG-H 3D Audio standard. The audio object rendering module 320 may render audio objects for one or more (real or virtual) speakers in accordance with corresponding object positions (these object positions may be modified or further modified object positions described below). The audio object rendering module 320 may render audio objects for headphones and/or loudspeakers. That is, the audio object rendering module 320 may generate object waveforms according to a specified playback format. For this purpose, the audio object rendering module 320 can use compressed object metadata. Each object can be rendered for specific output channels according to its object position (e.g., a modified object position or a further modified object position). Thus, the object positions can also be referred to as channel positions of their audio objects. The audio object positions 321 can be included in the output information of the object position metadata or the scene offset metadata by the scene offset unit 310.
Обработка согласно настоящему изобретению может быть совместима со стандартом MPEG-H 3D Audio. Таким образом, она может быть выполнена посредством декодера MPEG-H 3D Audio, или, более конкретно, посредством блока смещения сцены MPEG-H и/или модуля рендеринга MPEG-H 3D Audio. Соответственно, система 300 рендеринга звука по фиг. 3 может соответствовать или содержать декодер MPEG-H 3D Audio (т.е. декодер, совместимый с описанием, установленным стандартом MPEG-H 3D Audio). В одном примере система 300 рендеринга звука может представлять собой аппарат, содержащий процессор и запоминающее устройство, соединенное с процессором, при это процессор адаптирован для реализации декодера MPEG-H 3D Audio. В частности, процессор может быть приспособлен для реализации блока смещения сцены MPEG-H и/или модуля рендеринга MPEG-H 3D Audio. Таким образом, процессор может быть приспособлен для выполнения этапов обработки, описанных в настоящем изобретении (например, этапы S510-S560 способа 500, описанного со ссылкой на фиг. 5). В другом примере, обрабатывающая система или система 300 рендеринга звука может быть выполнена в облаке.The processing according to the present invention may be compatible with the MPEG-H 3D Audio standard. Thus, it may be performed by means of an MPEG-H 3D Audio decoder, or more specifically by means of an MPEG-H scene shifter and/or an MPEG-H 3D Audio rendering module. Accordingly, the audio rendering system 300 of Fig. 3 may correspond to or comprise an MPEG-H 3D Audio decoder (i.e., a decoder compatible with the description established by the MPEG-H 3D Audio standard). In one example, the audio rendering system 300 may be an apparatus comprising a processor and a memory device coupled to the processor, wherein the processor is adapted to implement an MPEG-H 3D Audio decoder. In particular, the processor may be adapted to implement an MPEG-H scene shifter and/or an MPEG-H 3D Audio rendering module. Thus, the processor may be adapted to perform the processing steps described in the present invention (for example, steps S510-S560 of the method 500 described with reference to Fig. 5 ). In another example, the processing system or audio rendering system 300 may be executed in the cloud.
Система 300 рендеринга звука может получать (например, принимать) данные 301 локации прослушивания. Система 300 рендеринга звука может получать данные 301 локации прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio.The audio rendering system 300 can obtain (for example, receive) listening location data 301. The audio rendering system 300 can obtain listening location data 301 via an input interface of an MPEG-H 3D Audio decoder.
Данные 301 локации прослушивания могут указывать ориентацию и/или положение (например, смещение) головы слушателя. Таким образом, данные 301 локации прослушивания (которые также могут называть информацией о позиции) могут содержать информацию об ориентации слушателя и/или информацию о смещении слушателя.The listening location data 301 may indicate the orientation and/or position (e.g., offset) of the listener's head. Thus, the listening location data 301 (which may also be referred to as position information) may comprise information about the orientation of the listener and/or information about the offset of the listener.
Информация о смещении слушателя может указывать смещение головы слушателя (например, из номинального положения прослушивания). Информация о смещении слушателя может соответствовать или содержать указание амплитуды смещения головы слушателя из номинального положения прослушивания, roffset=||P0-P1|| 206, как показано на фиг. 2. В контексте настоящего изобретения информация о смещении слушателя указывает небольшое смещение положения головы слушателя из номинального положения прослушивания. Например, абсолютное значение смещения может составлять не более 0,5м. Как правило, это представляет собой смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя. То есть, слушатель может осуществить смещение без движения нижней частью тела. Например, смещение головы слушателя может быть осуществлено, когда слушатель сидит на стуле, как указано выше. Смещение может быть выражено посредством различных систем координат, таких как, например, декартовы координаты (например, в рамках x, y, z) или сферические координаты (например, в рамках азимута, угла подъема, радиуса). Альтернативные системы координат для выражения смещения головы слушателя также возможны и, как следует понимать, охвачены настоящим изобретением.The listener offset information may indicate a displacement of the listener's head (e.g., from the nominal listening position). The listener offset information may correspond to or comprise an indication of the amplitude of the displacement of the listener's head from the nominal listening position, r offset = || P 0 - P 1 || 206, as shown in Fig. 2. In the context of the present invention, the listener offset information indicates a small displacement of the listener's head position from the nominal listening position. For example, the absolute value of the displacement may be no more than 0.5 m. Typically, this represents a displacement of the listener's head from the nominal listening position that can be achieved by moving the listener's upper body and/or head. That is, the listener can perform the displacement without moving the lower body. For example, the listener's head can be displaced while the listener is sitting on a chair, as indicated above. The displacement can be expressed by means of various coordinate systems, such as, for example, Cartesian coordinates (e.g., in terms of x, y, z) or spherical coordinates (e.g., in terms of azimuth, elevation angle, radius). Alternative coordinate systems for expressing the displacement of the listener's head are also possible and are understood to be encompassed by the present invention.
Информация об ориентации слушателя может указывать ориентацию головы слушателя (например, ориентацию головы слушателя относительно номинальной ориентации/исходной ориентации головы слушателя). Например, информация об ориентации слушателя может содержать информацию о рыскании, тангаже и крене головы слушателя. В настоящем документе рыскание, тангаж и крен могут быть заданы относительно номинальной ориентации.The listener orientation information may indicate the orientation of the listener's head (e.g., the orientation of the listener's head relative to the nominal orientation/original orientation of the listener's head). For example, the listener orientation information may contain information about the yaw, pitch, and roll of the listener's head. In this document, the yaw, pitch, and roll may be specified relative to the nominal orientation.
Данные 301 локации прослушивания могут непрерывно собирать с приемника, который может предоставлять информацию относительно поступательных движений пользователя. Например, данные 301 локации прослушивания, которые используются в конкретном случае во времени, могли быть недавно собраны с приемника. Данные локации прослушивания могут быть получены/собраны/сгенерированы на основании информации от датчиков. Например, данные 301 локации прослушивания могут быть получены/собраны/сгенерированы посредством носимого и/или стационарного оборудования, имеющего подходящие датчики. То есть, ориентация головы слушателя может быть обнаружена посредством носимого и/или стационарного оборудования. Подобным образом, смещение головы слушателя (например, из номинального положения прослушивания) может быть обнаружено посредством носимого и/или стационарного оборудования. Носимое оборудование может представлять собой, соответствовать и/или включать, например, гарнитуру (например, гарнитуру AR/VR). Стационарное оборудование может представлять собой, соответствовать и/или содержать, например, датчики-камеры. Стационарное оборудование может быть встроено, например, в телевизор или телевизионную приставку. В некоторых вариантах осуществления данные 301 локации прослушивания могут быть приняты от звукового кодера (например, MPEG-H 3D Audio-совместимого кодера), который мог получить (например, принять) информацию от датчиков.The listening location data 301 may be continuously collected from a receiver, which may provide information regarding the user's translational movements. For example, the listening location data 301, which is used in a particular case in time, may have been recently collected from the receiver. The listening location data may be obtained/collected/generated based on information from sensors. For example, the listening location data 301 may be obtained/collected/generated by means of wearable and/or stationary equipment having suitable sensors. That is, the orientation of the listener's head may be detected by means of wearable and/or stationary equipment. Similarly, the displacement of the listener's head (e.g., from the nominal listening position) may be detected by means of wearable and/or stationary equipment. The wearable equipment may be, correspond to, and/or include, for example, a headset (e.g., an AR/VR headset). The stationary equipment may be, correspond to, and/or include, for example, camera sensors. The stationary equipment may be built into, for example, a television or a set-top box. In some embodiments, the listening location data 301 may be received from an audio encoder (for example, an MPEG-H 3D Audio-compatible encoder), which may have received (for example, received) information from the sensors.
В одном примере носимое и/или стационарное оборудование для обнаружения данных 301 локации прослушивания могут называть отслеживающими устройствами, которые поддерживают оценку/обнаружение положения головы и/или оценку/обнаружение ориентации головы. Существуют различные решения, позволяющие точное отслеживание движений головы пользователя с использованием камер компьютера или смартфона (например, на основании распознавания и отслеживания лица «FaceTrackNoIR», «opentrack»). Также несколько систем виртуальной реальности для наголовного дисплея (Head-Mounted Display, HMD) (например, HTC VIVE, Oculus Rift) имеют встроенную технологию отслеживания положения головы пользователя. Любое из этих решений может быть использовано в контексте настоящего изобретения.In one example, wearable and/or stationary equipment for detecting listening location data 301 can be called tracking devices that support head position estimation/detection and/or head orientation estimation/detection. There are various solutions that allow precise tracking of user's head movements using computer or smartphone cameras (e.g., based on face recognition and tracking "FaceTrackNoIR", "opentrack"). Also, several virtual reality systems for head-mounted display (HMD) (e.g., HTC VIVE, Oculus Rift) have built-in user's head position tracking technology. Any of these solutions can be used in the context of the present invention.
Также важно отметить, что расстояние смещения головы в реальных условиях не должно соответствовать один к одному смещению, указанному данными 301 локации прослушивания. Для достижения гиперреалистичного эффекта (например, сверхусиленного параллакс-эффекта движения пользователя) в конкретных применениях могут использовать разные настройки калибровки датчиков или задавать разные отображения между движением в реальном и виртуальном пространствах. Следовательно, можно ожидать, что небольшое физическое движение приведет к большему смещению в виртуальной реальности в некоторых случаях использования. В любом случае, можно сказать, что амплитуды смещения в реальных условиях и в виртуальной реальности (т.е. смещение, указанное данными 301 локации прослушивания) положительно коррелируют. Подобным образом, направления смещения в реальных условиях и в виртуальной реальности положительно коррелируют.It is also important to note that the distance of head displacement in real conditions does not have to correspond one-to-one to the displacement indicated by the listening location data 301. In order to achieve a hyper-realistic effect (e.g., an over-enhanced parallax effect of user motion), specific applications may use different sensor calibration settings or specify different mappings between motion in real and virtual spaces. Therefore, it can be expected that a small physical motion will result in a larger displacement in virtual reality in some use cases. In any case, it can be said that the displacement amplitudes in real conditions and in virtual reality (i.e., the displacement indicated by the listening location data 301) are positively correlated. Likewise, the displacement directions in real conditions and in virtual reality are positively correlated.
Система 300 рендеринга звука может дополнительно принимать (объект) информацию 302 о положении (например, данные положения объекта) и звуковые данные 322. Звуковые данные 322 могут содержать один или более звуковых объектов. Информация 302 о положении может представлять собой часть метаданных для звуковых данных 322. Информация 302 о положении может указывать соответствующие положения объекта для одного или более звуковых объектов. Например, информация 302 о положении может содержать указание расстояния до соответствующих звуковых объектов относительно номинального положения прослушивания пользователя/слушателя. Расстояние (радиус) может составлять менее 0,5м. Например, расстояние может составлять менее 1см. Если информация 302 о положении не содержит указание расстояния до заданного звукового объекта до номинального положения прослушивания, система рендеринга звука может устанавливать расстояние от этого звукового объекта до номинального положения прослушивания на значение по умолчанию (например, 1м). Информация 302 о положении может дополнительно содержать указания угла подъема и/или азимута соответствующих звуковых объектов.The audio rendering system 300 may further receive (object) position information 302 (e.g., object position data) and audio data 322. The audio data 322 may comprise one or more audio objects. The position information 302 may be part of the metadata for the audio data 322. The position information 302 may indicate corresponding object positions for the one or more audio objects. For example, the position information 302 may comprise an indication of the distance to the corresponding audio objects relative to the nominal listening position of the user/listener. The distance (radius) may be less than 0.5 m. For example, the distance may be less than 1 cm. If the position information 302 does not comprise an indication of the distance to a given audio object from the nominal listening position, the audio rendering system may set the distance from this audio object to the nominal listening position to a default value (e.g., 1 m). The position information 302 may further comprise indications of an elevation angle and/or azimuth of the corresponding audio objects.
Каждое положение объекта может использовано для рендеринга соответствующего звукового объекта. Соответственно информация 302 о положении и звуковые данные 322 могут содержаться в звуковом содержимом на основе объектов или образовывать его. Звуковое содержимое (например, звуковые объекты/звуковые данные 322 вместе с информацией 302 о их положении) может быть передано в кодированном звуковом битовом потоке. Например, звуковое содержимое может находиться в формате битового потока, принятого посредством передачи по сети. В этом случае, как определено, система рендеринга звука может принимать звуковое содержимое (например, из кодированного звукового битового потока).Each position of the object can be used to render a corresponding audio object. Accordingly, the position information 302 and the audio data 322 can be contained in or form the audio content based on objects. The audio content (e.g., the audio objects/audio data 322 together with the position information 302) can be transmitted in an encoded audio bitstream. For example, the audio content can be in the format of a bitstream received via transmission over a network. In this case, as defined, the audio rendering system can receive the audio content (e.g., from the encoded audio bitstream).
В одном примере настоящего изобретения параметры метаданных могут быть использованы для исправления обработки вариантов использования с обратно совместимым улучшением для 3DoF и 3DoF+. Метаданные могут содержать информацию о смещении слушателя в дополнение к информации об ориентации слушателя. Такие параметры метаданных могут быть использованы системами, показанными на фиг. 2 и 3, а также любыми другими вариантами осуществления настоящего изобретения.In one example of the present invention, metadata parameters can be used to correct the processing of use cases with a backward-compatible enhancement for 3DoF and 3DoF+. The metadata can contain information about the offset of the listener in addition to information about the orientation of the listener. Such metadata parameters can be used by the systems shown in Figs. 2 and 3, as well as any other embodiments of the present invention.
Обратно совместимое улучшение может обеспечить корректировку обработки вариантов использования (например, реализаций настоящего изобретения) на основании нормативного интерфейса смещения сцены MPEG-H 3D Audio. Это означает, что устаревший декодер/модуль рендеринга MPEG-H 3D Audio все еще будет обеспечивать вывод, пусть даже некорректный. Однако улучшенный декодер/модуль рендеринга MPEG-H 3D Audio согласно настоящему изобретению будет корректно применять данные расширения (например, метаданные расширения) и обработку, и, следовательно, может управлять сценарием объектов, расположенных вблизи слушателя, корректным образом.A backward compatible enhancement may provide for an adjustment to the processing of use cases (e.g., implementations of the present invention) based on the normative MPEG-H 3D Audio scene displacement interface. This means that a legacy MPEG-H 3D Audio decoder/renderer will still provide output, albeit incorrectly. However, an enhanced MPEG-H 3D Audio decoder/renderer according to the present invention will correctly apply the extension data (e.g., extension metadata) and processing, and can therefore manage the scenario of objects located near the listener in a correct manner.
В одном примере настоящее изобретение относится к предоставлению данных для небольших поступательных движений головы пользователя в форматах, отличающихся от тех, что отмечены ниже, и формулы могут быть адаптированы соответствующим образом. Например, данные могут быть приведены в формате, таком как координаты x, y, z (в системе декартовых координат) вместо азимута, угла подъема и радиуса (в системе сферических координат). Пример этих систем координат относительно друг друга показан на фиг. 4.In one example, the present invention relates to providing data for small translational movements of the user's head in formats other than those noted below, and the formulas can be adapted accordingly. For example, the data can be provided in a format such as x, y, z coordinates (in a Cartesian coordinate system) instead of azimuth, elevation angle and radius (in a spherical coordinate system). An example of these coordinate systems relative to each other is shown in Fig. 4 .
В одном примере, настоящее изобретение относится к предоставлению метаданных (например, информация о смещении слушателя включена в данные 301 локации прослушивания, показанные на фиг. 3) для ввода поступательного движения головы слушателя. Метаданные могут быть использованы, например, для интерфейса для данных смещения сцены. Метаданные (например, информация о смещении слушателя) могут быть получены посредством использования отслеживающего устройства, которое поддерживает отслеживание 3DoF+ или 6DoF.In one example, the present invention relates to providing metadata (for example, information about the displacement of the listener is included in the listening location data 301 shown in Fig. 3 ) for inputting the translational movement of the listener's head. The metadata can be used, for example, for an interface for scene displacement data. The metadata (for example, information about the displacement of the listener) can be obtained by using a tracking device that supports 3DoF+ or 6DoF tracking.
В одном примере метаданные (например, информация о смещении слушателя, в частности смещение головы слушателя, или, эквивалентно, смещение сцены) могут быть представлены посредством следующих трех параметров: sd_azimuth, sd_elevation и sd_radius, относящихся к азимуту, углу подъема и радиусу (сферические координаты) смещения головы слушателя (или смещения сцены).In one example, metadata (e.g., information about the listener's displacement, in particular the listener's head displacement, or equivalently, the scene displacement) may be represented by the following three parameters: sd_azimuth , sd_elevation , and sd_radius , which refer to the azimuth, elevation angle, and radius (spherical coordinates) of the listener's head displacement (or scene displacement).
Синтаксис для этих параметров представлен в нижеследующей таблице.The syntax for these parameters is presented in the table below.
Таблица 264b - синтаксис mpegh3daPositionalSceneDisplacementData()Table 264b - mpegh3daPositionalSceneDisplacementData() syntax
sd_azimuth это поле обозначает положение азимута смещения сцены. Это поле может иметь значения от -180 до 180. sd_azimuth This field specifies the azimuth position of the scene offset. This field can have values from -180 to 180.
αz offset = (sd_azimuth - 128) ⋅ 1,5 αz offset = (sd_azimuth - 128) ⋅ 1.5
αz offset = min(max(αz offset , -180), 180) αz offset = min(max(αz offset , -180), 180)
sd_elevation это поле обозначает положение угла подъема смещения сцены. Это поле может иметь значения от -90 до 90. sd_elevation This field represents the elevation angle position of the scene offset. This field can have values from -90 to 90.
el offset = (sd_elevation - 32) · 3,0 el offset = (sd_elevation - 32) · 3.0
el offset = min(max(el offset , -90), 90) el offset = min(max(el offset , -90), 90)
sd_radius это поле обозначает радиус смещения сцены. Это поле может иметь значения от 0,015626 до 0,25. sd_radius This field specifies the radius of the scene offset. This field can have values from 0.015626 to 0.25.
r offset = (sd_radius + 1) / 16 r offset = (sd_radius + 1) / 16
В другом примере метаданные (например, информация о смещении слушателя) могут быть представлены следующими тремя параметрами sd_x, sd_y и sd_z в декартовых координатах, за счет чего снизится обработка данных со сферических координат до декартовых координат. Метаданные могут быть основаны на следующем синтаксисе: In another example, metadata (for example, listener offset information) can be represented by the following three parameters sd_x , sd_y and sd_z in Cartesian coordinates, thereby reducing the processing of data from spherical coordinates to Cartesian coordinates. The metadata can be based on the following syntax:
Как описано выше, вышеприведенный синтаксис или эквиваленты этого синтаксиса могут сигнально передавать информацию, относящуюся к поворотам вокруг оси x, y, z.As described above, the above syntax or equivalents of this syntax can signal information related to rotations around the x, y, z axis.
В одном примере настоящего изобретения обработка углов смещения сцены для каналов и объектов может быть улучшена за счет расширения уравнений, которые учитывают изменения положения головы пользователя. То есть, при обработке положений объекта могут учитывать (например, могут быть основаны, по меньшей мере частично) информацию о смещении слушателя.In one example of the present invention, the processing of scene offset angles for channels and objects can be improved by expanding the equations that take into account changes in the user's head position. That is, when processing object positions, information about the listener's offset can be taken into account (e.g., can be based, at least in part).
Пример способа 500 обработки информации о положении, указывающей положение объекта для звукового объекта, продемонстрирован на блок-схеме на фиг. 5. Этот способ может быть выполнен посредством декодера, такого как декодер MPEG-H 3D audio. Система 300 рендеринга звука по фиг. 3 может выступать в качестве примера такого декодера.An example of a method 500 for processing position information indicating the position of an object for an audio object is shown in the block diagram of Fig. 5 . This method can be performed by a decoder, such as an MPEG-H 3D audio decoder. The audio rendering system 300 of Fig. 3 can serve as an example of such a decoder.
На первом этапе (не показан на фиг. 5) принимают звуковое содержимое, включающее звуковой объект и соответствующую информацию о положении, например, из битового потока кодированного звука. Затем способ может дополнительно включать декодирование кодированного звукового содержимого для получения звукового объекта и информации о положении.In a first step (not shown in Fig. 5 ), audio content is received, including an audio object and corresponding position information, for example from an encoded audio bitstream. The method may then further include decoding the encoded audio content to obtain the audio object and position information.
На этапе S510 получают (например, принимают) информацию об ориентации слушателя. Информация об ориентации слушателя может указывать ориентацию головы слушателя.In step S510, information about the orientation of the listener is obtained (e.g. received). The information about the orientation of the listener may indicate the orientation of the head of the listener.
На этапе S520 получают (например, принимают) информацию о смещении слушателя. Информация о смещении слушателя может указывать смещение головы слушателя.In step S520, information about the displacement of the listener is obtained (for example, received). The information about the displacement of the listener may indicate the displacement of the head of the listener.
На этапе S530 определяют положение объекта из информации о положении. Например, положение объекта (например, в рамках азимута, угла подъема, радиуса или x, y, z или их эквивалентов) могут извлечь из информации о положении. Определение положения объекта также может быть основано, по меньшей мере частично, на информации относительно геометрии расположения динамиков одного или более (реальных или виртуальных) динамиков в среде прослушивания. Если радиус не включен в информацию о положении для этого звукового объекта, декодер может устанавливать значение радиуса по умолчанию (например, 1м). В некоторых вариантах осуществления значение по умолчанию может зависеть от геометрии расположения динамиков.In step S530 , the position of the object is determined from the position information. For example, the position of the object (e.g., within the azimuth, elevation angle, radius, or x, y, z or their equivalents) can be extracted from the position information. The determination of the position of the object can also be based, at least in part, on information regarding the geometry of the speaker arrangement of one or more (real or virtual) speakers in the listening environment. If the radius is not included in the position information for this audio object, the decoder can set a default radius value (e.g., 1 m). In some embodiments, the default value can depend on the geometry of the speaker arrangement.
Следует отметить, что этапы S510, S520 и S520 могут быть выполнены в любом порядке.It should be noted that steps S510, S520 and S520 may be performed in any order.
На этапе S540 положение объекта, определенное на этапе S530, модифицируют на основании информации о смещении слушателя. Это могут выполнить посредством применения поступательного перемещения к положению объекта в соответствии с информацией о смещении (например, в соответствии со смещением головы слушателя). Таким образом, как определено, модификацию положения объекта могут относить к корректировке положения объекта для смещения головы слушателя (например, смещение из номинального положения прослушивания). В частности, модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания. Пример такого поступательного перемещения схематически проиллюстрирован на фиг. 2.In step S540 , the position of the object determined in step S530 is modified based on the information about the displacement of the listener. This may be performed by applying a translation to the position of the object in accordance with the information about the displacement (for example, in accordance with the displacement of the head of the listener). Thus, as determined, the modification of the position of the object may be related to an adjustment of the position of the object for the displacement of the head of the listener (for example, a displacement from the nominal listening position). In particular, the modification of the position of the object based on the information about the displacement of the listener may be performed by a translation of the position of the object using a vector that is positively correlated with the amplitude and negatively correlated with the direction of the vector of the displacement of the head of the listener from the nominal listening position. An example of such a translation is schematically illustrated in Fig. 2 .
На этапе S550 модифицированное положение объекта, полученное на этапе S540, дополнительно модифицируют на основании информации об ориентации слушателя. Например, это могут осуществить посредством применения поворотного преобразования к модифицированному положению объекта в соответствии с информацией об ориентации слушателя. Этот поворот может представлять собой, например, поворот относительно головы слушателя или номинального положения прослушивания. Поворотное преобразование может быть выполнено посредством алгоритма смещения сцены.In step S550, the modified position of the object obtained in step S540 is further modified based on the orientation information of the listener. For example, this may be done by applying a rotational transformation to the modified position of the object in accordance with the orientation information of the listener. This rotation may be, for example, a rotation relative to the head of the listener or a nominal listening position. The rotational transformation may be performed by means of a scene shift algorithm.
Как отмечено выше, компенсацию отклонения пользователя (т.е. модификацию положения объекта на основании информации о смещении слушателя) принимают во внимание при применении поворотного преобразования. Например, применение поворотного преобразования может включать:As noted above, user offset compensation (i.e., modification of the object position based on the listener's offset information) is taken into account when applying a rotation transform. For example, applying a rotation transform may involve:
• вычисление матрицы поворотного преобразования (на основании ориентации пользователя, например информации об ориентации слушателя);• calculation of the rotation transformation matrix (based on the user orientation, such as listener orientation information);
• конвертирование положения объекта из сферических в декартовы координаты;• converting the position of an object from spherical to Cartesian coordinates;
• применение поворотного преобразования к звуковым объектам, компенсирующим отклонение положения пользователя (т.е. к модифицированному положению объекта); и• applying a rotational transform to audio objects that compensates for the user's position deviation (i.e., to the modified position of the object); and
• конвертирование положения объекта после поворотного преобразования обратно из декартовых в сферические координаты.• converting the position of an object after a rotational transformation back from Cartesian to spherical coordinates.
На следующем этапе S560 (не показан на фиг. 5) способ 500 может включать рендеринг звукового объекта на одном или более реальных или виртуальных динамиках в соответствии с дополнительно модифицированным положением объекта. С этой целью дополнительно модифицированное положение объекта могут отрегулировать для формата ввода, используемого модулем рендеринга MPEG-H 3D Audio (например, модулем 320 рендеринга звукового объекта, описанным выше). Вышеупомянутые один или более (реальных или виртуальных) динамиков могут представлять собой, например, часть гарнитуры или могут представлять собой часть композиции динамиков (например, композиции динамиков 2.1, композиции динамиков 5.1, композиции динамиков 7.1 и т.д.). В некоторых вариантах осуществления рендеринг звукового объекта могут выполнять, например, для левого и правого динамиков гарнитуры.In the next step S560 (not shown in Fig. 5 ), the method 500 may include rendering the audio object on one or more real or virtual speakers in accordance with the further modified position of the object. For this purpose, the further modified position of the object may be adjusted for the input format used by the MPEG-H 3D Audio rendering module (for example, the audio object rendering module 320 described above). The aforementioned one or more (real or virtual) speakers may be, for example, part of a headset or may be part of a speaker composition (for example, a 2.1 speaker composition, a 5.1 speaker composition, a 7.1 speaker composition, etc.). In some embodiments, the audio object may be rendered, for example, for the left and right speakers of the headset.
Цель этапов S540 и S550, описанных выше, заключается в следующем. А именно, модификацию положения объекта и дополнительную модификацию модифицированного положения объекта выполняют таким образом, что звуковой объект после рендеринга на одном или более (реальных или виртуальных) динамиках в соответствии с дополнительно модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания. Это фиксированное положение звукового объекта должно психоакустически восприниматься независимо от смещения головы слушателя из номинального положения прослушивания и независимо от ориентации головы слушателя относительно номинальной ориентации. Иными словами, звуковой объект могут воспринимать как перемещающийся (поступательно) относительно головы слушателя, когда голова слушателя выполняет смещение из номинального положения прослушивания. Подобным образом, звуковой объект могут воспринимать как перемещающийся (поворачивающийся) относительно головы слушателя, когда голова слушателя выполняет изменение ориентации из номинальной ориентации. Таким образом, слушатель может воспринимать близкий звуковой объект под разными углами и с разных расстояний посредством движения его головы.The purpose of the steps S540 and S550 described above is as follows. Namely, the modification of the position of the object and the further modification of the modified position of the object are performed in such a way that the sound object, after rendering on one or more (real or virtual) speakers in accordance with the further modified position of the object, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position. This fixed position of the sound object should be psychoacoustically perceived regardless of the displacement of the listener's head from the nominal listening position and regardless of the orientation of the listener's head relative to the nominal orientation. In other words, the sound object may be perceived as moving (translating) relative to the listener's head when the listener's head performs a displacement from the nominal listening position. Similarly, the sound object may be perceived as moving (rotating) relative to the listener's head when the listener's head performs an orientation change from the nominal orientation. In this way, the listener can perceive a close sound object at different angles and from different distances by means of his head movement.
Модификацию положения объекта и дополнительную модификацию модифицированного положения объекта на этапах S540 и S550 соответственно могут выполнить в контексте (поворотного/поступательного) смещения звуковой сцены, например, посредством блока 310 смещения звуковой сцены, описанного выше.The modification of the object position and the further modification of the modified object position in steps S540 and S550, respectively, may be performed in the context of a (rotational/translational) sound scene shift, for example by means of the sound scene shift unit 310 described above.
Следует отметить, что конкретные этапы могут быть пропущены в зависимости от данного определенного случая использования. Например, если данные 301 локации прослушивания содержат только информацию о смещении слушателя (но не содержат информацию об ориентации слушателя, или только информацию об ориентации слушателя, указывающую, что отсутствует отклонение ориентации головы слушателя от номинальной ориентации), этап S550 могут пропустить. Затем, рендеринг на этапе S560 будут выполнять в соответствии с модифицированным положением объекта, определенным на этапе S540. Подобным образом, если данные 301 локации прослушивания содержат только информацию об ориентации слушателя (но не содержат информацию о смещении слушателя, или только информацию о смещении слушателя, указывающую, что отсутствует отклонение положения головы слушателя от номинального положения прослушивания), этап S540 могут пропустить. Затем, этап S550 будет относиться к модификации положения объекта, определенного на этапе S530, на основании информации об ориентации слушателя. Рендеринг на этапе S560 будут выполнять в соответствии с модифицированным положением, определенным на этапе S550.It should be noted that specific steps may be omitted depending on a given specific use case. For example, if the listening location data 301 contains only listener offset information (but does not contain listener orientation information, or only listener orientation information indicating that there is no deviation in the listener's head orientation from the nominal orientation), step S550 may be omitted. Then, rendering in step S560 will be performed in accordance with the modified object position determined in step S540. Similarly, if the listening location data 301 contains only listener orientation information (but does not contain listener offset information, or only listener offset information indicating that there is no deviation in the listener's head position from the nominal listening position), step S540 may be omitted. Then, step S550 will relate to modifying the object position determined in step S530 based on the listener orientation information. Rendering in step S560 will be performed in accordance with the modified position determined in step S550.
В целом, в настоящем изобретении предложено обновление положения для положений объектов, полученных как часть звукового содержимого на основе объектов (например, информации 302 о положении вместе со звуковыми данными 322), на основании данных 301 локации прослушивания для слушателя.In general, the present invention proposes a position update for object positions obtained as part of object-based audio content (e.g. position information 302 together with audio data 322) based on listening location data 301 for a listener.
Во-первых, определяют положение объекта (или положение канала) p = (az,el,r). Это могут выполнять в контексте (например, как часть) этапа 530 способа 500.First, the object position (or channel position) p = (az,el,r) is determined. This may be performed in the context of (e.g., as part of) step 530 of method 500.
Для сигналов на основе каналов радиус r могут определять следующим образом:For channel-based signals, the radius r can be determined as follows:
- если предполагаемый громкоговоритель (канала для входного сигнала на основе канала) существует в компоновке громкоговорителей воспроизведения и расстояние до компоновки воспроизведения известно, радиус r установлен на расстояние до громкоговорителя (например, в см);- if the intended loudspeaker (channel for a channel-based input signal) exists in the playback loudspeaker layout and the distance to the playback layout is known, the radius r is set to the distance to the loudspeaker (e.g. in cm);
- если предполагаемый громкоговоритель не существует в компоновке громкоговорителей воспроизведения, но расстояние до громкоговорителей воспроизведения (например, от номинального положения прослушивания) известно, радиус r установлен на максимальное расстояние до громкоговорителя воспроизведения;- if the intended loudspeaker does not exist in the playback loudspeaker arrangement, but the distance to the playback loudspeakers (e.g. from the nominal listening position) is known, the radius r is set to the maximum distance to the playback loudspeaker;
- если предполагаемый громкоговоритель не существует в компоновке громкоговорителей воспроизведения и расстояние до громкоговорителя воспроизведения не известно, радиус r установлен на значение по умолчанию (например, 1023см).- if the intended loudspeaker does not exist in the playback loudspeaker layout and the distance to the playback loudspeaker is not known, the radius r is set to a default value (e.g. 1023cm).
Для сигналов на основе объектов радиус r определяют следующим образом:For object-based signals, the radius r is determined as follows:
- если расстояние до объекта известно (например, от производственных средств и из производственных форматов и передано в prodMetadataConfig()), радиус r устанавливают на известное расстояние до объекта (например, переданное через goa_bsObjectDistance[] (в см) согласно таблице AMD5.7 стандарта MPEG-H 3D Audio);- if the distance to the object is known (e.g. from production facilities and from production formats and passed to prodMetadataConfig()), the radius r is set to the known distance to the object (e.g. passed via goa_bsObjectDistance[] (in cm) according to table AMD5.7 of the MPEG-H 3D Audio standard);
Таблица AMD5.7 - синтаксис goa_Production_Metadata ()Table AMD5.7 - goa_Production_Metadata() syntax
- если расстояние до объекта известно из информации о положении (например, из метаданных объекта и передано в object_metadata()), радиус r установлен на расстояние до объекта, переданное в информации о положении (например, на радиус[] (в см), переданный с метаданными объектов). Радиус r может быть передан в соответствии с разделами: «масштабирование метаданных объекта» и «ограничение метаданных объекта», представленными ниже.- if the distance to the object is known from the position information (e.g. from the object metadata and passed to object_metadata()), the radius r is set to the distance to the object passed in the position information (e.g. to the radius[] (in cm) passed with the object metadata). The radius r can be passed according to the sections: "scaling object metadata" and "constraining object metadata" below.
Масштабирование метаданных объектаScaling object metadata
В качестве необязательного этапа в контексте определения положения объекта положение объекта p = (az,el,r), определенное из информации о положении, может быть масштабировано. Это может включать применение коэффициента масштабирования для отмены масштабирования кодера входных данных для каждого компонента. Это может быть выполнено для каждого объекта. Фактическое масштабирование положения объекта может быть реализовано наряду с псевдокодом, представленным ниже:As an optional step in the context of object pose determination, the object pose p = (az,el,r) determined from the pose information can be scaled. This may involve applying a scaling factor to unscale the input encoder for each component. This can be done for each object. The actual scaling of the object pose can be implemented along with the pseudocode presented below:
descale_multidata()descale_multidata()
{{
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
azimuth[o] = azimuth[o] * 1,5;azimuth[o] = azimuth[o] * 1.5;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
elevation[o] = elevation[o] * 3,0;elevation[o] = elevation[o] * 3.0;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
radius[o] = pow(2,0, (radius[o] / 3,0)) / 2,0;radius[o] = pow(2.0, (radius[o] / 3.0)) / 2.0;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
gain[o] = pow(10,0, (gain[o] - 32,0) / 40,0);gain[o] = pow(10.0, (gain[o] - 32.0) / 40.0);
if (uniform_spread == 1)if (uniform_spread == 1)
{{
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread[o] = spread[o] * 1,5;spread[o] = spread[o] * 1.5;
}}
elseelse
{{
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread_width[o] = spread_width[o] * 1,5;spread_width[o] = spread_width[o] * 1.5;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread_height[o] = spread_height[o] * 3,0;spread_height[o] = spread_height[o] * 3.0;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread_depth[o] = (pow(2,0, (spread_depth[o] / 3,0)) / 2,0) - 0,5;spread_depth[o] = (pow(2.0, (spread_depth[o] / 3.0)) / 2.0) - 0.5;
}}
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
dynamic_object_priority[o] = dynamic_object_priority[o];dynamic_object_priority[o] = dynamic_object_priority[o];
}}
Ограничение метаданных объектаObject Metadata Restriction
В качестве необязательного этапа в контексте определения положения объекта (возможно масштабированное) положение объекта p = (az,el,r), определенное из информации о положении, может быть ограничено. Это может включать применение ограничения декодированных значений для каждого компонента для удержания значений в допустимом диапазоне. Это может быть выполнено для каждого объекта. Фактическое ограничение положения объекта может быть реализовано в соответствии с функциональными возможностями псевдокода, представленного ниже:As an optional step in the context of determining the object pose (possibly scaled), the object pose p = (az,el,r) determined from the pose information may be constrained. This may involve applying a constraint to the decoded values for each component to keep the values within an acceptable range. This may be done for each object. The actual constraint on the object pose may be implemented according to the functionality of the pseudocode presented below:
limit_range()limit_range()
{{
minval = -180;minval = -180;
maxval = 180;maxval = 180;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
azimuth[o] = MIN(MAX(azimuth[o], minval), maxval);azimuth[o] = MIN(MAX(azimuth[o], minval), maxval);
minval = -90;minval = -90;
maxval = 90;maxval = 90;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
elevation[o] = MIN(MAX(elevation[o], minval), maxval);elevation[o] = MIN(MAX(elevation[o], minval), maxval);
minval = 0,5;minval = 0.5;
maxval = 16;maxval = 16;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
radius[o] = MIN(MAX(radius[o], minval), maxval);radius[o] = MIN(MAX(radius[o], minval), maxval);
minval = 0,004;minval = 0.004;
maxval = 5,957;maxval = 5,957;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
gain[o] = MIN(MAX(gain[o], minval), maxval);gain[o] = MIN(MAX(gain[o], minval), maxval);
if (uniform_spread == 1)if (uniform_spread == 1)
{{
minval = 0;minval = 0;
maxval = 180;maxval = 180;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread[o] = MIN(MAX(spread[o], minval), maxval);spread[o] = MIN(MAX(spread[o], minval), maxval);
}}
elseelse
{{
minval = 0;minval = 0;
maxval = 180;maxval = 180;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread_width[o] = MIN(MAX(spread_width[o], minval), maxval);spread_width[o] = MIN(MAX(spread_width[o], minval), maxval);
minval = 0;minval = 0;
maxval = 90;maxval = 90;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread_height[o] = MIN(MAX(spread_height[o], minval), maxval);spread_height[o] = MIN(MAX(spread_height[o], minval), maxval);
minval = 0;minval = 0;
maxval = 15,5;maxval = 15.5;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
spread_depth[o] = MIN(MAX(spread_depth[o], minval), maxval);spread_depth[o] = MIN(MAX(spread_depth[o], minval), maxval);
}}
minval = 0;minval = 0;
maxval = 7;maxval = 7;
for (o = 0; o < num_objects; o++)for (o = 0; o < num_objects; o++)
dynamic_object_priority[o] = MIN(MAX(dynamic_object_priority[o], minval),dynamic_object_priority[o] = MIN(MAX(dynamic_object_priority[o], minval),
maxval);maxval);
}}
После этого, определенное (и необязательно масштабированное и/или ограниченное) положение объекта p = (az,el,r) может быть конвертировано в заданную систему координат, такую как, например, система координат в соответствии с «обычным соглашением», при котором азимут 0° находится на правом ухе (положительные значения идут против часовой стрелки) и угол подъема 0° находится вверху головы (положительные значения идут по направлению вниз). Таким образом, положение объекта p может быть конвертировано в положение p' согласно «обычному» соглашению. Это обеспечивает положение объекта p' сAfter this, the defined (and optionally scaled and/or constrained) position of the object p = (az,el,r) can be converted to a given coordinate system, such as, for example, a coordinate system according to the "usual convention" in which azimuth 0° is at the right ear (positive values go counterclockwise) and elevation 0° is at the top of the head (positive values go downward). Thus, the position of the object p can be converted to a position p ' according to the "usual" convention. This gives a position of the object p ' with
p' = (az',el',r) p' = (az ' ,el ' ,r)
a'' = az + 90° a' ' = az + 90 °
el' = 90° - el el' = 90 ° - el
с неизменным радиусом r.with constant radius r .
В то же время смещение головы слушателя, указанное посредством информации о смещении слушателя (az offset , el offset , r offset ), может быть конвертировано в заданную систему координат. С использованием «обычного соглашения» это составляетAt the same time, the listener's head offset, specified by the listener offset information ( az offset , el offset , r offset ), can be converted to a given coordinate system. Using the "usual convention", this amounts to
az' offset = az offset + 90° az ' offset = az offset + 90°
el' offset = 90° - el offset el ' offset = 90 ° - el offset
с неизменным радиусом r offset .with constant radius r offset .
Следует отметить, что конвертирование в заданную систему координат как для положения объекта, так и для смещения головы слушателя может быть выполнено в контексте этапа S530 или этапа S540.It should be noted that the conversion to a given coordinate system for both the object position and the listener's head offset may be performed in the context of step S530 or step S540.
Обновление фактического положения может быть выполнено в контексте (например, в качестве части) этапа S540 способа 500. Обновление положения может включать следующие этапы.Updating the actual position may be performed in the context of (e.g., as part of) step S540 of the method 500. Updating the position may include the following steps.
В качестве первого этапа положение p или, если был выполнен перенос в заданную систему координат, положение p', переносят в декартовы координаты (x, y, z). Далее без предполагаемого ограничения процесс будет описан для положения p' в заданной системе координат. Также без предполагаемого ограничения следующую ориентацию/направление осей координат можно предполагать следующим образом: ось x указывает вправо (показана от головы слушателя в номинальной ориентации), ось y указывает направление прямо вперед и ось z указывает прямо вверх. В то же время, смещение головы слушателя, указанное посредством информации о смещении слушателя (az' offset , el' offset , r offset ), конвертировано в декартовы координаты.As a first step, the position of p , or if a translation into a given coordinate system has been performed, the position of p ', is translated into Cartesian coordinates (x, y, z). In the following, without implied constraint, the process will be described for the position of p ' in the given coordinate system. Also without implied constraint, the following orientation/direction of the coordinate axes can be assumed: the x-axis points to the right (shown from the listener's head in the nominal orientation), the y-axis points straight ahead, and the z-axis points straight up. At the same time, the offset of the listener's head, specified by the listener offset information ( az ' offset , el ' offset , r offset ), is converted into Cartesian coordinates.
В качестве второго этапа положение объекта в декартовых координатах сдвигают (поступательно перемещают) в соответствии со смещением головы слушателя (смещением сцены) таким образом, как описано выше. Это могут выполнять посредствомAs a second step, the object's position in Cartesian coordinates is shifted (translated) in accordance with the listener's head displacement (scene displacement) in the manner described above. This can be accomplished by
x = r ⋅ sin(el') cos(az') + r offset ⋅ sin(el' offset ) ⋅ cos(az' offset ) x=r⋅ sin(el') cos(az') +r offset ⋅ sin(el' offset ) ⋅ cos(az' offset )
y = r ⋅ sin(el') sin(az') + r offset ⋅ sin(el/ offset ) ⋅ sin(az' offset ) y=r⋅ sin(el') sin(az') +r offset ⋅ sin(el/ offset ) ⋅ sin(az' offset )
z = r ⋅ cos(el') + r offset ⋅ cos(el' offset ) z=r⋅ cos(el') +r offset ⋅ cos(el' offset )
Вышеуказанное поступательное перемещение представляет собой пример модификации положения объекта на основании информации о смещении слушателя на этапе S540 способа 500.The above translational movement is an example of modifying the position of an object based on the listener displacement information in step S540 of the method 500.
Сдвинутое положение объекта в декартовых координатах конвертируют в сферические координаты и могут называть p''. Сдвинутое положение объекта могут выражать в заданной системе координат в соответствии с обычным соглашением как p'' = (az'',el'',r').The shifted position of an object in Cartesian coordinates is converted to spherical coordinates and may be called p ''. The shifted position of an object may be expressed in a given coordinate system according to the usual convention as p '' = (az '' ,el '' ,r ' ) .
Когда присутствуют смещения головы слушателя, которые обеспечивают небольшое изменение параметра радиуса (т.е. r' ≈ r), модифицированное положение p'' объекта может быть повторно определено как p'' = (az'',el'',r).When there are listener head displacements that provide a small change in the radius parameter (i.e. r ' ≈ r ), the modified object position p '' can be redefined as p '' = (az '' ,el '' ,r) .
В другом примере, когда присутствуют большие смещения головы слушателя, которые могут обеспечить значительное изменение параметра радиуса (т.е. r' >> r), модифицированное положение p'' объекта также может быть определено как p'' = (az'',el'',r') вместо p'' = (az'',el'',r) с модифицированным параметром радиуса r'.In another example, when there are large listener head displacements that can provide a significant change in the radius parameter (i.e. r '>> r ), the modified object position p '' can also be defined as p '' = (az '' ,el '' ,r ' ) instead of p '' = (az '' ,el '' ,r) with a modified radius parameter r '.
Соответствующее значение модифицированного параметра радиуса r' могут получить из расстояния смещения головы слушателя (т.е. roffset=||P0-P1||) и начального параметра радиуса (т.е. r=||P0-A||), (см., например, фиг. 1 и 2). Например, модифицированный параметр радиуса r' могут определить на основании следующего тригонометрического отношения:The corresponding value of the modified radius parameter r ' can be obtained from the listener's head offset distance (i.e. r offset =||P 0 -P 1 ||) and the initial radius parameter (i.e. r=||P 0 -A||), (see, for example, Figs. 1 and 2). For example, the modified radius parameter r ' can be determined based on the following trigonometric relationship:
Отображение этого модифицированного параметра радиуса r' на коэффициенты усиления объекта/канала и их применения для последующего рендеринга звука может значительно улучшить эффекты восприятия изменения уровня вследствие движений пользователя. За счет обеспечения такой модификации параметра радиуса r' обеспечивается «адаптивная зона наилучшего восприятия». Это будет означать, что система рендеринга MPEG динамически регулирует положение зоны наилучшего восприятия согласно текущей локации слушателя. В общем, рендеринг звукового объекта в соответствии с модифицированным (или дополнительно модифицированным) положением объекта может быть основан на модифицированном параметре радиуса r'. В частности, коэффициенты усиления объекта/канала для рендеринга звукового объекта могут быть основаны на (например, модифицированы на основании) модифицированном параметре радиуса r'.Mapping this modified radius parameter r ' to object/channel gains and applying them for subsequent audio rendering can significantly improve the effects of perceiving level changes due to user movements. By providing such a modification of the radius parameter r ', an "adaptive sweet spot" is provided. This would mean that the MPEG rendering system dynamically adjusts the position of the sweet spot according to the current location of the listener. In general, the rendering of an audio object according to a modified (or further modified) object position can be based on the modified radius parameter r '. In particular, the object/channel gains for rendering the audio object can be based on (e.g. modified based on) the modified radius parameter r '.
В другом примере во время установки и рендеринга громкоговорителя воспроизведения (например, на этапе S560, представленном выше), смещение сцены может быть отключено. Однако доступно необязательное включение смещения сцены. Это обеспечивает создание модулем рендеринга 3DoF+ динамически регулируемой зоны наилучшего восприятия в соответствии с текущей локацией и ориентацией слушателя.In another example, during setup and rendering of the playback speaker (e.g., in step S560 above) , scene shifting may be disabled. However, an optional enabling of scene shifting is available. This ensures that the 3DoF+ renderer creates a dynamically adjusted sweet spot according to the current location and orientation of the listener.
Следует отметить, что этап конвертирования положения объекта и смещения головы слушателя в декартовы координаты является необязательным, и поступательное перемещение/сдвиг (модификацию) в соответствии со смещением головы слушателя (смещением сцены) могут выполнять в любой подходящей системе координат. Иными словами, выбор декартовых координат в вышепредставленном описании следует понимать, как неограничивающий пример.It should be noted that the stage of converting the object position and the listener's head displacement into Cartesian coordinates is optional, and the translational movement/shift (modification) in accordance with the listener's head displacement (scene displacement) can be performed in any suitable coordinate system. In other words, the choice of Cartesian coordinates in the above description should be understood as a non-limiting example.
В некоторых вариантах осуществления обработка смещения сцены (включая модификацию положения объекта и/или дополнительную модификацию модифицированного положения объекта) может быть включена или выключена посредством флага (поле, элемент, установочный бит) в битовом потоке (например, элемент useTrackingMode). Подпункты «17.3 Interface for local loudspeaker setup and rendering» и «17.4 Interface for binaural room impulse responses (BRIRs)» в ISO/IEC 23008-3 содержат описания элемента useTrackingMode, активирующего обработку смещения сцены. В контексте настоящего изобретения элемент useTrackingMode должен определять (подпункт 17.3), должна или не должна происходить обработка значений смещения сцены, отправленных посредством интерфейсов mpegh3daSceneDisplacementData() и mpegh3daPositionalSceneDisplacementData(). Альтернативно или дополнительно (подпункт 17.4) поле useTrackingMode должно определять, соединено ли отслеживающее устройство и должен ли быть обработан бинауральный рендеринг в особом режиме отслеживания положения головы пользователя, что обозначает, что обработка значений смещения сцены, отправленных посредством интерфейсов mpegh3daSceneDisplacementData() и mpegh3daPositionalSceneDisplacementData(), должна быть осуществлена.In some embodiments, the processing of scene displacement (including modification of object position and/or further modification of the modified object position) may be enabled or disabled by a flag (field, element, setting bit) in the bitstream (e.g., useTrackingMode element). Subclauses "17.3 Interface for local loudspeaker setup and rendering" and "17.4 Interface for binaural room impulse responses (BRIRs)" in ISO/IEC 23008-3 contain descriptions of the useTrackingMode element activating the processing of scene displacement. In the context of the present invention, the useTrackingMode element shall determine (subclause 17.3) whether the processing of scene displacement values sent via the mpegh3daSceneDisplacementData() and mpegh3daPositionalSceneDisplacementData() interfaces shall or shall not occur. Alternatively or additionally (subclause 17.4), the useTrackingMode field shall specify whether a tracking device is connected and whether binaural rendering shall be processed in a special mode for tracking the user's head position, which means that processing of scene displacement values sent via the mpegh3daSceneDisplacementData() and mpegh3daPositionalSceneDisplacementData() interfaces shall be performed.
Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, аппаратно-программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут быть реализованы, например, как программное обеспечение, запускаемое на процессоре цифровой обработки сигналов или на микропроцессоре. Другие компоненты могут быть реализованы, например, как аппаратное обеспечение или как интегральные схемы специального назначения. Сигналы, которые встречаются в описанных способах и системах, можно хранить на носителях, таких как оперативное запоминающее устройство или оптические носители информации. Они могут передаваться по сетям, таким как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другая бытовая аппаратура, которая используется для хранения и/или формирования звуковых сигналов.The methods and systems described in this document can be implemented as software, firmware and/or hardware. Some components can be implemented, for example, as software running on a digital signal processor or on a microprocessor. Other components can be implemented, for example, as hardware or as special-purpose integrated circuits. The signals that occur in the described methods and systems can be stored on media such as random access memory or optical storage media. They can be transmitted over networks such as radio networks, satellite networks, wireless networks or wired networks such as the Internet. Typical devices using the methods and systems described in this document are portable electronic devices or other consumer equipment that is used to store and/or generate audio signals.
Хотя в настоящем документе выполняют ссылки на MPEG и, в частности, MPEG-H 3D Audio, настоящее изобретение не должно быть истолковано как ограниченное этими стандартами. Напротив, как станет понятно специалистам в данной области техники, настоящее изобретение может найти преимущественное применение также в других стандартах кодирования звука.Although reference is made in this document to MPEG and in particular MPEG-H 3D Audio, the present invention should not be construed as being limited to these standards. On the contrary, as will be apparent to those skilled in the art, the present invention may find advantageous application in other audio coding standards as well.
Кроме того, хотя в настоящем документе часто выполняют ссылки на небольшие смещения положения головы слушателя (например, из номинального положения прослушивания), настоящее изобретение не ограничено небольшими смещениями положения и может в целом применяться для произвольного смещения положения головы слушателя.Furthermore, although reference is often made herein to small displacements of the listener's head position (e.g., from a nominal listening position), the present invention is not limited to small displacements of position and may generally be applied to arbitrary displacements of the listener's head position.
Следует отметить, что описание и графические материалы иллюстрируют только принципы предложенных способов, систем и аппаратов. Специалисты в данной области техники будут способны реализовать различные схемы, которые, хотя явно не описаны или показаны в настоящем документе, осуществляют принципы настоящего изобретения и включены в его сущность и объем. Более того, все примеры и вариант осуществления, изложенные в настоящем документе, в первую очередь явным образом предназначены для пояснительных целей, чтобы помочь читателю в понимании принципов предложенного способа. Кроме того, все утверждения в настоящем документе, представляющие принципы, аспекты и варианты осуществления настоящего изобретения, а также их конкретные примеры, предполагаются как охватывающие их эквиваленты.It should be noted that the description and drawings illustrate only the principles of the proposed methods, systems and apparatuses. Those skilled in the art will be able to implement various arrangements that, although not explicitly described or shown herein, implement the principles of the present invention and are included in its spirit and scope. Moreover, all examples and embodiments set forth herein are primarily expressly intended for explanatory purposes to assist the reader in understanding the principles of the proposed method. In addition, all statements in this document presenting principles, aspects and embodiments of the present invention, as well as specific examples thereof, are intended to cover their equivalents.
В дополнение к вышепредставленному, различные примерные реализации и примерные варианты осуществления настоящего изобретения станут понятны из пронумерованных примеров вариантов осуществления (ППВО), перечисленных ниже, которые не являются пунктами формулы изобретения.In addition to the above, various exemplary implementations and exemplary embodiments of the present invention will become apparent from the numbered embodiment examples (NEEs) listed below, which do not constitute claims.
Первый ППВО относится к способу декодирования кодированного битового потока звукового сигнала, причем указанный способ включает: прием аппаратом 300 декодирования звука кодированного битового потока (302, 322) звукового сигнала, при этом кодированный битовой поток звукового сигнала содержит кодированные звуковые данные (322) и метаданные, соответствующие по меньшей мере одному звуковому сигналу (302) объекта; декодирование аппаратом (300) декодирования звука кодированного битового потока (302, 322) звукового сигнала для получения представления нескольких звуковых источников; прием аппаратом (300) декодирования звука данных (301) локации прослушивания; генерирование аппаратом (300) декодирования звука данных (321) положений звукового объекта, причем в данных (321) положений звукового объекта описано несколько источников звука относительно локации прослушивания на основании данных (301) локации прослушивания.The first PPVO relates to a method for decoding an encoded bitstream of an audio signal, wherein said method comprises: receiving, by an audio decoding apparatus 300, an encoded bitstream (302, 322) of an audio signal, wherein the encoded bitstream of the audio signal comprises encoded audio data (322) and metadata corresponding to at least one audio signal (302) of an object; decoding, by the audio decoding apparatus (300), the encoded bitstream (302, 322) of the audio signal to obtain a representation of several audio sources; receiving, by the audio decoding apparatus (300), listening location data (301); generating, by the audio decoding apparatus (300), audio object position data (321), wherein the audio object position data (321) describes several audio sources relative to the listening location based on the listening location data (301).
Второй ППВО относится к способу согласно первому ППВО, при этом данные (301) локации прослушивания основаны на первом наборе первых данных положения поступательного перемещения и втором наборе вторых данных положения и ориентации поступательного перемещения.The second PPVO relates to the method according to the first PPVO, wherein the listening location data (301) are based on a first set of first translational position data and a second set of second translational position and orientation data.
Третий ППВО относится к способу согласно второму ППВО, при этом либо первые данные положения поступательного перемещения, либо вторые данные положения поступательного перемещения основаны на по меньшей мере одном из набора сферических координат или набора декартовых координат.The third PPVO relates to the method according to the second PPVO, wherein either the first translational position data or the second translational position data are based on at least one of a set of spherical coordinates or a set of Cartesian coordinates.
Четвертый ППВО относится к способу согласно первому ППВО, при этом данные (301) локации прослушивания получены посредством входного интерфейса декодера MPEG-H 3D Audio.The fourth PPVO refers to the method according to the first PPVO, wherein the listening location data (301) is obtained via the input interface of the MPEG-H 3D Audio decoder.
Пятый ППВО относится к способу согласно первому ППВО, при этом кодированный битовый поток звукового сигнала содержит элементы синтаксиса битового потока MPEG-H 3D Audio, и причем элементы синтаксиса битового потока MPEG-H 3D Audio содержат кодированные звуковые данные (322) и метаданные, соответствующие по меньшей мере одному звуковому сигналу (302) объекта.The fifth PPVO relates to the method according to the first PPVO, wherein the encoded bitstream of the audio signal comprises MPEG-H 3D Audio bitstream syntax elements, and wherein the MPEG-H 3D Audio bitstream syntax elements comprise encoded audio data (322) and metadata corresponding to at least one audio signal (302) of the object.
Шестой ППВО относится к способу согласно первому ППВО, который дополнительно включает рендеринг аппаратом (300) декодирования звука на нескольких громкоговорителях нескольких звуковых источников, при этом процесс рендеринга совместим с по меньшей мере стандартом MPEG-H 3D Audio.The sixth PPVO relates to the method according to the first PPVO, which further includes rendering by the apparatus (300) of decoding sound on several loudspeakers of several sound sources, wherein the rendering process is compatible with at least the MPEG-H 3D Audio standard.
Седьмой ППВО относится к способу согласно первому ППВО, который дополнительно включает конвертирование аппаратом (300) декодирования звука на основании трансляции данных (301) локации прослушивания положения p, соответствующего по меньшей мере одному звуковому сигналу (302) объекта, во второе положение p'', соответствующее положениям (321) звукового объекта.The seventh PPVO relates to the method according to the first PPVO, which further comprises converting by the sound decoding apparatus (300) based on the broadcast of the listening location data (301) of the position p corresponding to at least one sound signal (302) of the object, into a second position p '' corresponding to the positions (321) of the sound object.
Восьмой ППВО относится к способу согласно седьмому ППВО, при этом положение p’ для положений звукового объекта в заданной системе координат (например, в соответствии с обычным соглашением) определяют на основании:The eighth PPVO refers to the method according to the seventh PPVO, where the position p’ for the positions of the sound object in a given coordinate system (e.g., according to the usual convention) is determined on the basis of:
p’=(az’,el’,r)p’=(az’,el’,r)
az' = az + 90° az ' = az + 90°
el' = 90° - el el ' = 90° - el
az' offset = az offset + 90° az ' offset = az offset + 90°
el' offset = 90° - el offset el ' offset = 90° - el offset
причем az соответствует первому параметру азимута, el соответствует первому параметру угла подъема и r соответствует первому параметру радиуса, в настоящем документе az' соответствует второму параметру азимута, el' соответствует второму параметру угла подъема и r' соответствует второму параметру радиуса, причем az offset соответствует третьему параметру азимута, el offset соответствует третьему параметру угла подъема, и при этом az' offset соответствует четвертому параметру азимута, el' offset соответствует четвертому параметру угла подъема.moreoverazcorresponds to the first parameter of azimuth,elcorresponds to the first parameter of the angle of ascent andrcorresponds to the first parameter of the radius, in this documentaz' corresponds to the second parameter of azimuth,el' corresponds to the second parameter of the angle of ascent andr' corresponds to the second parameter of the radius, andaz offset corresponds to the third parameter of azimuth,el offset corresponds to the third parameter of the angle of ascent, and at the same timeaz' offset corresponds to the fourth parameter of azimuth,el' offset corresponds to the fourth parameter of the angle of elevation.
Девятый ППВО относится к способу согласно восьмому ППВО, причем сдвинутое положение p'' (321) звукового объекта для положения (302) звукового объекта определено в декартовых координатах (x, y, z) на основании:The ninth PPVO refers to the method according to the eighth PPVO, wherein the shifted position p '' (321) of the sound object for the position (302) of the sound object is determined in Cartesian coordinates (x, y, z) based on:
x = r sin(el') cos(az') + x offset x = r sin( el ') cos( az ') + x offset
y = r sin(el') sin(az') + y offset y = r sin( el ') sin( az ') + y offset
z = r cos(el') + z offset z = r cos( el ') + z offset
причем положение в декартовых координатах (x, y, z) содержит параметры x, y и z, и при этом x offset относится к первому параметру отклонения оси x, y offset относится к первому параметру отклонения оси y и z offset относится к первому параметру отклонения оси z.where the position in Cartesian coordinates (x, y, z) contains the parameters x, y and z, and where x offset refers to the first parameter of the x-axis offset, y offset refers to the first parameter of the y-axis offset and z offset refers to the first parameter of the z-axis offset.
Десятый ППВО относится к способу согласно девятому ППВО, где параметры x offset , y offset и z offset основаны наThe tenth PPVO refers to the method according to the ninth PPVO, where the parameters x offset , y offset and z offset are based on
x offset = r offset ∙sin(el' offset ) cos(az' offset ) x offset =r offset ∙sin(el' offset ) cos(az' offset )
y offset = r offset sin(el' offset ) sin(az' offset ) y offset = r offset sin( el ' offset ) sin( az ' offset )
z offset = r offset ∙cos(el' offset ) z offset = r offset ∙cos(el' offset )
Одиннадцатый ППВО относится к способу согласно седьмому ППВО, при этом параметр az offset азимута относится к положению азимута смещения сцены и основан на:The eleventh PPVO refers to the method according to the seventh PPVO, while the az offset parameter of the azimuth refers to the position of the azimuth offset of the scene and is based on:
az offset = (sd_azimuth - 128) 1,5 az offset = (sd_azimuth - 128) 1.5
az offset = min(max(az offset , -180), 180) az offset = min(max( az offset , -180), 180)
причем sd_azimuth представляет собой параметр, указывающий смещение азимута сцены MPEG-H 3DA, при этом параметр угла подъема el offset относится к положению угла подъема смещения сцены и основан на:where sd_azimuth is a parameter indicating the MPEG-H 3DA scene azimuth offset, while the elevation angle parameter el offset refers to the elevation angle position of the scene offset and is based on:
el offset = (sd_elevation - 32) 3 el offset = (sd_elevation - 32) 3
el offset = min(max(el offset , -90), 90) el offset = min(max( el offset , -90), 90)
причем sd_elevation представляет собой параметр метаданных угла подъема, указывающий смещение угла подъема сцены MPEG-H 3DA, причем параметр радиуса r offset относится к радиусу смещения сцены и основан на:where sd_elevation is an elevation angle metadata parameter indicating the elevation angle offset of the MPEG-H 3DA scene, where the radius parameter r offset refers to the scene offset radius and is based on:
r offset = (sd_radius + 1) / 16 r offset = (sd_radius + 1) / 16
при этом sd_radius представляет собой параметр метаданных радиуса, указывающий смещение радиуса сцены MPEG-H 3DA, и причем параметры X и Y представляют собой скалярные переменные.where sd_radius is a radius metadata parameter specifying the MPEG-H 3DA scene radius offset, and where X and Y parameters are scalar variables.
Двенадцатый ППВО относится к способу согласно десятому ППВО, при этом параметр x offset относится к положению sd_x отклонения смещения сцены в направлении оси x; параметр y offset относится к положению sd_y отклонения смещения сцены в направлении оси y; и параметр z offset относится к положению sd_z отклонения смещения сцены в направлении оси z.The twelfth PPVO refers to the method according to the tenth PPVO, wherein the parameter x offset refers to the position sd_x of the scene offset deviation in the x-axis direction; the parameter y offset refers to the position sd_y of the scene offset deviation in the y-axis direction; and the parameter z offset refers to the position sd_z of the scene offset deviation in the z-axis direction.
Тринадцатый ППВО относится к способу согласно первому ППВО, который дополнительно включает интерполяцию аппаратом декодирования звука первых данных положения, относящихся к данным (301) локации прослушивания и звуковому сигналу (102) объекта, со скоростью обновления.The thirteenth PPVO relates to the method according to the first PPVO, which further includes interpolating, by the audio decoding apparatus, the first position data related to the listening location data (301) and the audio signal (102) of the object, at an update rate.
Четырнадцатый ППВО относится к способу согласно первому ППВО, который дополнительно включает определение аппаратом 300 декодирования звука эффективного энтропийного кодирования данных (301) локации прослушивания.The fourteenth PPVO relates to the method according to the first PPVO, which further includes determining by the sound decoding apparatus 300 an effective entropy encoding of the data (301) of the listening location.
Пятнадцатый ППВО относится к способу согласно первому ППВО, при этом данные положения, относящиеся к локации (301) прослушивания, получают на основании информации от датчиков.The fifteenth PPVO refers to the method according to the first PPVO, wherein the position data related to the listening location (301) are obtained based on information from sensors.
Claims (26)
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2023122339A Division RU2826074C2 (en) | 2018-04-09 | 2019-04-09 | Method, non-volatile machine-readable medium and mpeg-h 3d audio decoder for extending three degrees of freedom of mpeg-h 3d audio |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2846304C1 true RU2846304C1 (en) | 2025-09-03 |
Family
ID=
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160337777A1 (en) * | 2014-01-16 | 2016-11-17 | Sony Corporation | Audio processing device and method, and program therefor |
| RU2602346C2 (en) * | 2012-08-31 | 2016-11-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Rendering of reflected sound for object-oriented audio information |
| WO2017098949A1 (en) * | 2015-12-10 | 2017-06-15 | ソニー株式会社 | Speech processing device, method, and program |
| US9807534B2 (en) * | 2013-09-11 | 2017-10-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for decorrelating loudspeaker signals |
| US20180046431A1 (en) * | 2016-08-10 | 2018-02-15 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
| US20180091918A1 (en) * | 2016-09-29 | 2018-03-29 | Lg Electronics Inc. | Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same |
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| RU2602346C2 (en) * | 2012-08-31 | 2016-11-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Rendering of reflected sound for object-oriented audio information |
| US9807534B2 (en) * | 2013-09-11 | 2017-10-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for decorrelating loudspeaker signals |
| US20160337777A1 (en) * | 2014-01-16 | 2016-11-17 | Sony Corporation | Audio processing device and method, and program therefor |
| WO2017098949A1 (en) * | 2015-12-10 | 2017-06-15 | ソニー株式会社 | Speech processing device, method, and program |
| US20180046431A1 (en) * | 2016-08-10 | 2018-02-15 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
| US20180091918A1 (en) * | 2016-09-29 | 2018-03-29 | Lg Electronics Inc. | Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11877142B2 (en) | Methods, apparatus and systems for three degrees of freedom (3DOF+) extension of MPEG-H 3D audio | |
| US11375332B2 (en) | Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio | |
| RU2846304C1 (en) | Methods, apparatus and systems for expansion of three degrees of freedom (3dof+) mpeg-h 3d audio | |
| RU2826074C2 (en) | Method, non-volatile machine-readable medium and mpeg-h 3d audio decoder for extending three degrees of freedom of mpeg-h 3d audio | |
| RU2803062C2 (en) | Methods, apparatus and systems for expanding three degrees of freedom (3dof+) of mpeg-h 3d audio | |
| HK40127499A (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40073984A (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40087971A (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40087971B (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40058798B (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40058796B (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40115907A (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40058797B (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio | |
| HK40058799A (en) | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio |