CN115836535A - 信号处理装置、方法和程序 - Google Patents
信号处理装置、方法和程序 Download PDFInfo
- Publication number
- CN115836535A CN115836535A CN202180043091.5A CN202180043091A CN115836535A CN 115836535 A CN115836535 A CN 115836535A CN 202180043091 A CN202180043091 A CN 202180043091A CN 115836535 A CN115836535 A CN 115836535A
- Authority
- CN
- China
- Prior art keywords
- signal
- band extension
- processing
- audio signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本技术涉及甚至使低成本装置能够执行高质量音频再现的信号处理装置、方法和程序。信号处理装置包括:获取单元,获取第一音频信号、用于第一音频信号的频带扩展的第一频带扩展信息和用于通过对第一音频信号执行预定信号处理获取的第二音频信号的频带扩展的第二频带扩展信息;选择单元,选择基于第一频带扩展信息和第二频带扩展信息中的哪一个执行频带扩展;以及频带扩展单元,基于选择的第一频带扩展信息或第二频带扩展信息,以及第一音频信号或第二音频信号,执行频带扩展,并生成第三音频信号。本技术可以应用于信号处理装置。
Description
技术领域
本技术涉及信号处理装置、方法和程序,并且具体地涉及甚至使低成本装置能够执行高质量音频再现的信号处理装置、方法和程序。
背景技术
过去,在视频、游戏等中使用对象音频技术,并且还开发了可以处理对象音频的编码方法。具体地,例如,MPEG(运动图像专家组)-H第3部分:3D音频标准(其是国际标准)是已知的(例如,参考非专利文献1)。
利用这种编码方法,可以与传统的双声道立体声方法或具有5.1声道的多声道立体声方法等一起,将运动的声源等作为独立的音频对象(在下文中,可以简单地称为对象)来处理,并且将对象的位置信息连同音频对象的信号数据一起编码为元数据。
因此,可以在具有不同扬声器数量和布置的各种观看/收听环境中执行再现。此外,可以容易地在再现时处理来自特定声源的声音,例如,对于来自特定声源的声音的音量调整,或者对来自特定声源的声音添加效果,这在传统的编码方法中是困难的。
利用这种编码方法,在解码侧上执行关于比特流的解码,并且获取元数据,所述元数据包括作为对象位置信息的音频信号的对象信号和指示对象在空间中的位置的对象位置信息。
基于对象位置信息,执行用于在虚拟布置在空间中的多个虚拟扬声器中的每处渲染对象信号的渲染处理。例如,在非专利文献1的标准中,在渲染处理中使用被称为三维VBAP(Vector Based Amplitude Panning)(以下简称为VBAP)的方法。
此外,当通过渲染处理获取对应于各个虚拟扬声器的虚拟扬声器信号时,基于虚拟扬声器信号执行HRTF(头相关传输函数)处理。在该HRTF处理中,生成用于使声音从实际耳机或扬声器输出(好像声音从虚拟扬声器再现)的输出音频信号。
在实际再现这样的对象音频的情况下,当可以将许多实际扬声器布置在空间中时,执行基于虚拟扬声器信号的再现。此外,当不能布置许多扬声器并且使用少量的扬声器(诸如,使用耳机或者声吧)再现对象音频时,执行基于上述输出音频信号的再现。
相反,近年来,由于存储价格的下降或者宽带网络的变化,具有96kHz以上的采样频率的通常所谓的高分辨率声源(换言之,高分辨率声源)已经开始被欣赏。
在非专利文献1中记载的编码方法中,作为有效地对高分辨率声源进行编码的技术,可以使用SBR(Spectral Band Replication)等技术。
例如,在SBR的编码侧,不对频谱的高范围分量进行编码,并且仅对高范围子带信号的平均振幅信息进行编码并发送该高范围子带的数目。
在解码侧上,基于低范围子带信号和用于高范围的平均振幅信息生成包括低范围分量和高范围分量的最终输出信号。结果,可以实现更高质量的音频再现。
利用这种技术,在人对高范围信号分量的相位变化不敏感并且其频率包络的轮廓接近原始信号的情况下,利用不能感知其间的差异的听力特性。这种技术作为典型的频带扩展技术而广为人知。
[引用列表]
[非专利文献]
[非专利文献1]
国际标准ISO/IEC 23008-3第二版2019-02Information technology-Highefficiency coding and media delivery in heterogeneous environments-Part 3:3Daudio。
发明内容
[技术问题]
顺便提及,在结合如上所述的对象音频的渲染处理或HRTF处理执行频带扩展的情况下,在对每个对象的对象信号执行频带扩展处理之后执行渲染处理或HRTF处理。
在这种情况下,由于对大量对象独立地执行频带扩展处理,因此处理负荷(换言之,计算量)变大。此外,在频带扩展处理之后,由于对通过频带扩展获取的具有较高采样频率的信号执行渲染处理或HRTF处理,因此处理负荷进一步增加。
因此,诸如具有低成本处理器或电池的装置的低成本装置(换言之,具有低运算处理能力的装置或具有低电池容量的装置)不能执行频带扩展,并且因此不能执行高质量音频再现。
鉴于这种情况做出本技术,并且甚至利用低成本设备能够执行高质量的音频再现。
[问题的解决方案]
根据本技术的一个方面的信号处理装置包括:获取单元,获取第一音频信号、用于第一音频信号的频带扩展的第一频带扩展信息和用于通过对第一音频信号执行预定信号处理获取的第二音频信号的频带扩展的第二频带扩展信息;选择单元,基于第一频带扩展信息和第二频带扩展信息中的哪一个执行频带扩展;以及频带扩展单元,基于所选择的第一频带扩展信息或第二频带扩展信息以及第一音频信号或第二音频信号,执行频带扩展并且生成第三音频信号。
根据本技术的一个方面的信号处理方法或程序包括以下步骤:获取第一音频信号、用于第一音频信号的频带扩展的第一频带扩展信息以及用于通过对第一音频信号执行预定信号处理获取的第二音频信号的频带扩展的第二频带扩展信息;选择基于第一频带扩展信息和第二频带扩展信息中的哪一个执行频带扩展,基于所选择的第一频带扩展信息或第二频带扩展信息以及第一音频信号或第二音频信号,执行频带扩展并且生成第三音频信号。
在本技术的一个方面中,获取第一音频信号、用于第一音频信号的频带扩展的第一频带扩展信息、以及用于通过对第一音频信号执行预定信号处理而获取的第二音频信号的频带扩展的第二频带扩展信息,选择第一频带扩展信息和第二频带扩展信息中的哪一个来执行频带扩展,并且基于选择的第一频带扩展信息或第二频带扩展信息以及第一音频信号或第二音频信号,执行频带扩展并且生成第三音频信号。
附图说明
图1是用于描述输出音频信号的生成的示图。
图2是用于描述VBAP的示图。
图3是用于描述HRTF处理的示图。
图4是用于描述频带扩展处理的示图。
图5是用于描述频带扩展处理的示图。
图6是示出信号处理装置的配置的实例的示图。
图7是示出输入比特流的语法实例的示图。
图8是用于描述信号生成处理的流程图。
图9是示出信号处理装置的配置的实例的示图。
图10是示出编码器的配置的实例的示图。
图11是用于描述编码处理的流程图。
图12是示出信号处理装置的配置的实例的示图。
图13是用于描述信号生成处理的流程图。
图14是示出了信号处理装置的配置的实例的示图。
图15是示出信号处理装置的配置的实例的示图。
图16是示出计算机的配置的示例的示图。
具体实施方式
参考附图,以下给出关于应用本技术的实施方式的描述。
<第一实施方式>
<本技术>
本技术在比特流复用高范围信息之后执行传输,其中,高范围信息用于预先将虚拟扬声器信号或输出音频信号设置为目标的频带扩展处理,并且与在编码之前从对象信号直接获取的用于频带扩展处理的高范围信息分离。
因此,可以以低采样频率执行具有高处理负载的解码处理、渲染处理或者虚拟化处理,并且随后基于高范围信息执行频带扩展处理,并且可以减少计算的总量。因此,即使利用低成本装置,也可以基于具有较高采样频率的输出音频信号执行高质量的音频再现。
首先,给出关于在对通过MPEG-H第3部分:3D音频标准的编码方法获取的比特流执行解码(解码)并产生用于对象音频的输出音频信号时执行的典型处理的描述。
例如,如图1所示,当通过编码(编码)获取的输入比特流被输入到解码处理单元11时,对输入比特流执行解复用和解码处理。
通过解码处理获取元数据,元数据包括对象信号和对象位置信息,对象信号是用于再现来自构成内容的对象(音频对象)的声音的音频信号,对象位置信息指示用于对象位置信息的空间中的位置。
随后,在渲染处理单元12中,并且基于包括在元数据中的对象位置信息,执行用于将对象信号渲染到虚拟布置在空间中的虚拟扬声器的渲染处理,并且生成用于再现将从各个虚拟扬声器输出的声音的虚拟扬声器信号。
此外,在虚拟化处理单元13中,基于用于各个虚拟扬声器的虚拟扬声器信号执行虚拟化处理,并且生成用于使得声音从再现装置(诸如,由用户安装的耳机或者布置在真实空间中的扬声器)输出的输出音频信号。
虚拟化处理是用于生成音频信号的处理,用于实现音频再现,如同利用与真实再现环境中的声道配置不同的声道配置执行再现。
例如,在这个实例中,虚拟化处理是用于生成用于实现音频再现的输出音频信号的处理,好像从每个虚拟扬声器输出声音,而不考虑从再现装置(诸如耳机)实际输出的声音。
可通过任何技术实现虚拟化处理,但以下描述继续假设HRTF处理作为虚拟化处理被执行。
如果基于通过虚拟化处理获取的输出音频信号从实际耳机或扬声器输出声音,则可以实现音频再现,好像从虚拟扬声器再现声音。注意,下面具体将实际布置在真实空间中的扬声器称为真实扬声器。
在再现这样的对象音频的情况下,当在空间中可以设置许多真实扬声器时,可以通过真实扬声器不变地再现来自再现处理的输出。
与此相反,当不可能在空间中布置许多真实扬声器时,执行HRTF处理,然后使用少量的真实扬声器(诸如,利用耳机或声吧)执行再现。通常,通常使用耳机或少量的真实扬声器执行再现。
这里,给出关于典型的渲染处理和HRTF处理的进一步描述。
例如,在渲染时,执行利用诸如上述VBAP的预定方法的渲染处理。VBAP是一种通常被称作平移的渲染技术,并且通过向存在于具有用户位置作为原点的球面表面上的虚拟扬声器之中的最靠近存在于同一球面表面上的对象的三个虚拟扬声器分配增益,来执行渲染。
例如,如图2所示,假设作为收听者的用户U11存在于三维空间中,并且三个虚拟扬声器SP1至SP3布置在用户U11的前方。
这里,假设用户U11的头部的位置为原点0,假设虚拟扬声器SP1至SP3位于以原点O为中心的球表面上。
现在考虑对象存在于球表面上的由虚拟扬声器SP1至SP3包围的区域TR11中,并且使声音图像定位到对象的位置VSP1。
在这种情况下,在VBAP中,对象的增益被分配到位置VSP1附近的虚拟扬声器SP1至SP3。
即,在以原点O为基准(原点)的三维坐标系中,以原点O为起点,以位置VSP1为终点的三维矢量P表示位置VSP1。
此外,如果以原点O为起点并且以虚拟扬声器SP1至SP3的位置为相应终点的三维向量为向量L1至L3,则向量P可由向量L1至L3的线性组合表示,如以下公式(1)中所示。
[数学式.1]
P=g1L1+g2L2+g3L3…(1)
这里,计算与公式(1)中的向量L1至L3相乘的系数g1至g3,并且如果使系数g1至g3为分别从虚拟扬声器SP1至SP3输出的声音的增益,则可以将声音图像定位到位置VSP1。
例如,设具有系数g1到g3作为元素的向量为g123=[g1,g2,g3],以及具有向量L1至L3作为元素的向量为L123=[L1,L2,L3],可以变换上述公式(1)以获取以下公式(2)。
[数学式.2]
如果使用通过如上计算公式(2)获取的系数g1至g3作为增益,从虚拟扬声器SP1至SP3中的每个输出基于对象信号的声音,则可将声音图像定位到位置VSP1。
应注意,因为布置虚拟扬声器SP1至SP3中的每一个的位置是固定的并且指示这些虚拟扬声器的位置的信息是已知的,所以可以预先获取是逆矩阵的L123 -1。
在图2中示出的球面上被三个虚拟扬声器包围的三角形区域TR11被称为网格。通过组合设置在空间中的许多虚拟扬声器来配置多个网格,能够将对象的声音定位到空间中的可选定义的位置。
以这种方式,当针对每个对象获取虚拟扬声器增益时,可以通过计算以下公式(3)来获取针对每个虚拟扬声器的虚拟扬声器信号。
[数学式.3]
应注意,公式(3)中的SP(m,t)表示M个虚拟扬声器中的第m个(然而,m=0,1,...,M-1)虚拟扬声器在时间t处的虚拟扬声器信号。此外,公式(3)中的S(n,t)表示N个对象中的第n个(然而,n=0,1,...,N-1)对象在时间t的对象信号。
此外,公式(3)中的G(m,n)表示与用于第n个对象信号的对象信号S(n,t)相乘的增益,并且用于获取用于第m个虚拟扬声器信号的虚拟扬声器信号SP(m,t)。换言之,增益G(m,n)表示通过上述公式(2)获取并且分配给第n个对象的第m个虚拟扬声器的增益。
渲染处理是公式(3)的计算最适用于计算成本的处理。即,公式(3)的计算为最大计算量的处理。
接下来,参考图3,给出关于在利用耳机或少量真实扬声器基于通过计算公式(3)获取的虚拟扬声器信号再现声音的情况下执行的HRTF处理的实例的描述。应注意,图3是虚拟扬声器布置在二维水平表面上以简化描述的实例。
在图3中,五个虚拟扬声器SP11-1至SP11-5在空间中的圆圈上排列设置。在不需要具体区分虚拟扬声器SP11-1至SP11-5的情况下,虚拟扬声器SP11-1至SP11-5简称为虚拟扬声器SP11。
此外,在图3中,作为收听者的用户U21位于由五个虚拟扬声器SP11包围的位置,换言之,在设置有虚拟扬声器SP11的圆的中心位置。因而,在HRTF处理中,生产用于实现音频再现的输出音频信号,好像用户U21听到从每个虚拟扬声器SP11输出的声音。
具体地,在该实例中,假设用户U21存在的位置是收听位置,并且使用耳机再现基于通过渲染到五个虚拟扬声器SP11中的每个获取的虚拟扬声器信号的声音。
在这种情况下,例如,基于虚拟扬声器信号从虚拟扬声器SP11-1输出(辐射)的声音通过由箭头Q11表示的路径并且到达用户U21的左耳中的耳膜。因而,从虚拟扬声器SP11-1输出的声音的特性应该由于从虚拟扬声器SP11-1到用户U21的左耳的空间传递特性、用户U21的面部或耳朵的形状、反射吸收特性等而改变。
因而,如果考虑从虚拟扬声器SP11-1到用户U21的左耳的空间传递特性、用户U21的面部或耳朵的形状、反射吸收特性等的传递函数H_L_SP11与虚拟扬声器SP11-1的虚拟扬声器信号卷积,则可以获取应当由用户U21的左耳听到的用于再现来自虚拟扬声器SP11-1的声音的输出音频信号。
类似地,例如,基于虚拟扬声器信号从虚拟扬声器SP11-1输出(辐射)的声音通过由箭头Q12表示的路径并且到达用户U21的右耳中的耳膜。因而,如果考虑从虚拟扬声器SP11-1到用户U21的右耳的空间传递特性、用户U21的面部或耳朵的形状、反射吸收特性等的传递函数H_R_SP11与虚拟扬声器SP11-1的虚拟扬声器信号卷积,则可以获取应当由用户U21的右耳听到的用于再现来自虚拟扬声器SP11-1的声音的输出音频信号。
因此,当使用耳机基于五个虚拟扬声器SP11的虚拟扬声器信号最终再现声音时,对于左声道,如果每个虚拟扬声器的左耳传递函数与各个虚拟扬声器信号卷积并且作为其结果获取的信号被加在一起以形成用于左声道的输出音频信号,就足够了。
类似地,对于右声道,如果每个虚拟扬声器的右耳传递函数与各个虚拟扬声器信号卷积并且作为其结果获取的信号被加在一起以形成用于右声道的输出音频信号就足够了。
应注意,在再现中使用的再现装置是真实扬声器而不是耳机的情况下,执行与用于耳机的情况类似的HRTF处理。然而,因为来自扬声器的声音根据空间传播到达用户的左耳和右耳两者,所以执行考虑串扰的处理。这种处理被称为听觉传输(transaural)处理。
通常,使已经经历频率表示的左耳输出音频信号(换言之,左声道输出音频信号)为L(ω),并且使已经经历频率表示的右耳输出音频信号(换言之,右声道输出音频信号)为R(ω),可以通过计算以下公式(4)来获取L(ω)和R(ω)。
[数学式.4]
应注意,公式(4)中的ω表示频率,并且SP(m,ω)表示M个虚拟扬声器中的第m个(然而,m=0,1,...,M-1)虚拟扬声器的频率ω的虚拟扬声器信号。虚拟扬声器信号SP(m,ω)可通过对上述虚拟扬声器信号SP(m,t)进行时间-频率转换来获取。
此外,公式(4)中的H_L(m,ω)表示与用于第m个虚拟扬声器的虚拟扬声器信号SP(m,ω)相乘并且用于获取左声道输出音频信号L(ω)的左耳传递函数。类似地,H_R(m,ω)指示右耳传递函数。
在HRTF的传递函数H_L(m,ω)或传递函数H_R(m,ω)被表示为时域脉冲响应的情况下,需要至少近似一秒的长度。因此,例如,在虚拟扬声器信号的采样频率是48kHz的情况下,必须执行与48000抽头的卷积,并且即使使用利用FFT(快速傅里叶变换)的高速运算方法来卷积传递函数,大量的计算也将是必要的。
在通过如上所述执行解码处理、渲染处理和HRTF处理并且使用耳机或少量真实扬声器来再现对象音频来生成输出音频信号的情况下,将需要大量的计算。此外,当对象的数量增加时,该计算量也成比例地增加。
接下来,给出关于频带扩展处理的描述。
在典型的频带扩展处理中,换言之,在SBR中,在编码侧,不对音频信号的频谱的高范围分量进行编码,并且对作为高范围频带的高范围子频带的高范围子频带信号的平均振幅信息进行编码并将其发送到解码侧。
另外,在解码侧,低范围子频带信号是通过解码处理(解码)获取的音频信号,通过其平均振幅被归一化,并且随后归一化的信号被复制(复制)到高范围子频带。将作为结果获取的信号乘以每个高范围子频带的平均振幅信息并且将其设置为高范围子频带信号,对低范围子频带信号和高高范围子频带信号进行子频带合成,并且将其设置为最终输出音频信号。
例如,通过这种频带扩展处理,可以对具有96kHz以上的采样频率的高分辨率声源执行音频再现。
然而,例如,在处理对象音频中的采样频率为96kHz的信号的情况下,与典型的立体声音频不同,对通过解码获取的96kHz对象信号执行渲染处理或HRTF处理,而不管是否执行诸如SBR的频带扩展处理。因此,在存在大量对象或大量虚拟扬声器的情况下,用于处理这些对象的计算成本变得巨大,并且高性能处理器和高功耗变得必要。
这里,参考图4,给出关于在通过对象音频的频带扩展获取96kHz输出音频信号的情况下执行的处理的实例的描述。应注意,在图4中,相同的参考符号被添加至与图1中的情况相对应的部分,并且省略其描述。
当提供输入比特流时,由解码处理单元11执行解复用和解码处理,并且输出作为结果获取的对象的对象信号以及对象位置信息和对象的高范围信息。
例如,高范围信息为编码前从对象信号中获取的高范围子频带信号的平均幅度信息。
换言之,用于频带扩展的高范围信息频带扩展信息对应于通过解码处理获取的对象信号,并且指示在编码之前的对象信号的高范围侧上的每个子频带分量的幅度,其具有更高的采样频率。注意,因为以SBR作为实例给出描述,所以用于高范围子带信号的平均振幅信息被用作频带扩展信息,但是用于频带扩展处理的频带扩展信息可以是用于编码之前的对象信号的高范围侧上的每个子频带的任何东西,诸如振幅的代表值或指示频率包络的形状的信息。
此外,例如,这里假设通过解码处理获取的对象信号具有48kHz的采样频率,并且此对象信号在下面可以被称为低FS对象信号。
在解码处理之后,在频带扩展单元41中,基于高范围信息和低FS对象信号执行频带扩展处理,并且获取具有高采样频率的对象信号。在该实例中,例如,假设通过频带扩展处理获取单元具有96kHz的采样频率的对象信号,并且此类对象信号在下面可被称为高FS对象信号。
此外,在渲染处理单元12中,基于通过解码处理获取的对象位置信息和通过频带扩展处理获取的高FS对象信号来执行渲染处理。具体地,在该实例中,通过渲染处理获取具有96kHz的采样频率的虚拟扬声器信号,并且此类虚拟扬声器信号在下文中可被称为高FS虚拟扬声器信号。
此外,随后在虚拟化处理单元13中,基于高FS虚拟扬声器信号执行诸如HRTF处理的虚拟化处理,并且获取具有96kHz的采样频率的输出音频信号。
这里,参考图5,给出关于典型的频带扩展处理的描述。
图5示出了预定对象信号的频率和幅度特性。要注意的是,在图5中,垂直轴表示振幅(功率),并且水平轴表示频率。
例如,虚线L11表示提供给频带扩展单元41的低FS对象信号的频率和振幅特性。该低FS对象信号具有48kHz的采样频率,并且低FS对象信号不包括具有24kHz以上的频带的信号分量。
此处,例如,高达24kHz的频带被划分为包括低范围子频带sb-8至低范围子频带sb-1的多个低范围子频带,并且用于这些低范围子频带中的每一个的信号分量是低范围子频带信号。类似地,从24kHz到48kHz的频带被划分为高范围子频带sb到高范围子频带sb+13,并且用于这些高范围子频带中的每的信号分量是高范围子频带信号。
此外,对于高范围子频带sb到高范围子频带sb+13中的每一个,将指示这些高范围子频带的平均振幅信息的高范围信息提供给频带扩展单元41。
例如,在图5中,直线L12表示作为用于高范围子频带sb的高范围信息提供的平均振幅信息,并且直线L13表示作为用于高范围子频带sb+1的高范围信息提供的平均振幅信息。
在频带扩展单元41中,通过低范围子频带信号的平均振幅值对低范围子频带信号进行归一化,并且将通过归一化获取的信号复制(映射)到高范围侧。这里,根据扩展的频带等预定义作为复制源的低范围子频带和作为该低范围子频带的复制目的地的高范围子频带。
例如,用于低范围子频带sb-8的低范围子频带信号被归一化,并且通过归一化获取的信号被复制到高范围子频带sb。
更具体地,对由用于低范围子频带sb-8的低范围子频带信号的归一化产生的信号执行调制处理,并且执行转换成用于高范围子频带sb的频率分量的信号。
类似地,例如,用于低范围子频带sb-7的低范围子频带信号被归一化,然后被复制到高范围子频带sb+1。
当以这种方式归一化的低范围子频带信号被复制(映射)到高范围子频带时,由相应的高范围子频带的高范围信息指示的平均振幅信息与相应高范围子频带的复制信号相乘,并且生成高范围子频带信号。
例如,对于高范围子频带sb,由直线L12表示的平均振幅信息与通过将用于低范围子频带sb-8的低范围子频带信号归一化的结果复制到高范围子频带sb而获取的信号相乘,并且相乘的结果被设置为用于高范围子频带sb的高范围子频带信号。
当针对每个高范围子频带获取高范围子频带信号时,然后输入每个低范围子频带信号和每个高范围子频带信号并通过具有96kHz采样的频带合成滤波器进行滤波(合成),并且输出由此获取的高FS对象信号。换言之,获取其采样频率已经被上采样至96kHz的高FS对象信号。
在图4所示的实例中,在频带扩展单元41中,对于包含在输入比特流中的每个低FS对象信号,换言之,对于每个对象,独立地执行如上所述的用于生成高FS对象信号的频带扩展处理。
因而,在对象的数量是32的情况下,例如,在渲染处理单元12中,必须针对32个对象中的每个对象执行用于96kHz高FS对象信号的渲染处理。
类似地,在作为后续阶段的虚拟化处理单元13中,必须对多个虚拟扬声器执行用于96kHz高FS虚拟扬声器信号的HRTF处理(虚拟化处理)。
结果,装置整体的处理负荷变得巨大。即使在通过解码处理获取的音频信号的采样频率是96kHz并且不执行频带扩展处理的情况下,这也是相似的。
因此,本技术使得其独立于在编码之前从对象信号中直接获取的关于每个高范围子频带的高范围信息,还预先与输入比特流一起复用和传输关于虚拟扬声器信号等的高分辨率(换言之,具有高采样频率)的高范围信息。
以这种方式,例如,可执行具有低采样频率的高处理负载的解码处理、渲染处理和HRTF处理,并基于发送的关于HRTF处理之后的最终信号的高范围信息执行频带扩展处理。因此,可以降低整体处理负荷,并且甚至利用低成本处理器或电池也可以实现高质量音频再现。
<信号处理装置的配置的实例>
图6是示出应用本技术的信号处理装置的实施方式的配置实例的示图。应注意,在图6中,相同的参考标记被添加到与图4中的情况对应的部分,并且适当地省略其描述。
在图6中示出的信号处理装置71例如由智能电话、个人计算机等配置,并且具有解码处理单元11、渲染处理单元12、虚拟化处理单元13以及频带扩展单元41。
在图4所示的实例中,按照解码处理、频带扩展处理、渲染处理、以及虚拟化处理的顺序执行相应的处理。
与此相反,在信号处理装置71中,按照解码处理、渲染处理、虚拟化处理和频带扩展处理的顺序执行相应处理(信号处理)。换言之,最后执行频带扩展处理。
因而,在信号处理装置71中,首先在解码处理单元11中对输入比特流执行解复用和解码处理。在这种情况下,可以认为,解码处理单元11用作从服务器等获取用于对象音频的编码对象信号、对象位置信息、高范围信息等的获取单元。(未示出)。
解码处理单元11将通过解复用和解码处理(解码处理)获取的高范围信息提供给频带扩展单元41,并且还将对象位置信息和对象信号提供给渲染处理单元12。
这里,输入比特流包括与来自虚拟化处理单元13的输出相对应的高范围信息,并且解码处理单元11将该高范围信息提供给频带扩展单元41。
此外,在渲染处理单元12中,基于从解码处理单元11提供的对象位置信息和对象信号,执行诸如VBAP的渲染处理,并且将所获取的虚拟扬声器信号作为结果提供给虚拟化处理单元13。
在虚拟化处理单元13中,HRTF处理作为虚拟化处理单元13被执行。换言之,在虚拟化处理单元13中,执行基于从渲染处理单元12提供的虚拟扬声器信号和与预先提供的传递函数对应的HRTF系数的卷积处理,以及用于将作为其结果获取的信号加在一起的加法处理,作为HRTF处理。虚拟化处理单元13将通过HRTF处理获取的音频信号提供至频带扩展单元41。
在这个实例中,例如,使从解码处理单元11提供给渲染处理单元12的对象信号为采样频率为48kHz的低FS对象信号。
在这种情况下,因为从渲染处理单元12提供给虚拟化处理单元13的虚拟扬声器信号也具有48kHz的采样频率,所以从虚拟化处理单元13提供给频带扩展单元41的音频信号的采样频率也是48kHz。
从虚拟化处理单元13提供给频带扩展单元41的音频信号在以下具体地还被称为低FS音频信号。这种低FS音频信号是通过对对象信号执行信号处理(例如,渲染处理或虚拟化处理)而获取的驱动信号,并且用于驱动再现装置(例如,耳机或真实扬声器),以使声音输出。
在频带扩展单元41中,通过基于从解码处理单元11提供的高范围信息对从虚拟化处理单元13提供的低FS音频信号执行频带扩展处理,生成输出音频信号,并且将输出音频信号输出至后续级。例如,通过频带扩展单元41获取的输出音频信号具有96kHz的采样频率。
<输入比特流的语法实例>
如上所述,信号处理装置71中的频带扩展单元41需要与来自虚拟化处理单元13的输出相对应的高范围信息,并且输入比特流包括这种高范围信息。
在此处,在图7中示出了提供给解码处理单元11的输入比特流的语法实例。
在图7中,“num_objects”表示对象的总数,“object_compressed_data”表示编码(压缩)对象信号,并且“object_bwe_data”表示每个对象的频带扩展的高范围信息。
例如,如参考图4所述,在对通过解码处理获取的低FS对象信号执行频带扩展处理的情况下,使用该高范围信息。换言之,“object_bwe_data”是高范围信息,其包括从编码之前的对象信号获取的每个高范围子频带信号的平均振幅信息。
此外,“position_azimuth”表示对象的球面坐标系中的水平角,“position_elevation”表示对象的球面坐标系中的垂直角,并且“position_radius”表示从球面坐标系原点到对象的距离(半径)。这里,包括水平角度、垂直角度和距离的信息是指示对象的位置的对象位置信息。
因此,在这个实例中,编码对象信号、高范围信息以及由“num_objects”表示的对象的数量的对象位置信息包括在输入比特流中。
此外,图7中的“num_vspk”表示虚拟扬声器的数量,“vspk_bwe_data”表示在对虚拟扬声器信号执行频带扩展处理的情况下使用的高范围信息。
该高范围信息例如是通过在编码之前对对象信号执行渲染处理而获取的平均振幅信息,并且用于具有比来自信号处理装置71中的渲染处理单元12的输出的采样频率高的采样频率的虚拟扬声器信号的每个高范围子频带信号。
此外,“num_output”表示输出声道的数量,即,用于具有多声道配置并最终输出的输出音频信号的声道的数量。“output_bwe_data”表示用于获取输出音频信号的高范围信息,换言之,在对来自虚拟化处理单元13的输出执行频带扩展处理的情况下使用的高范围信息。
该高范围信息例如是通过在编码之前对对象信号执行渲染处理和虚拟化处理而获取的平均振幅信息,并且用于具有比来自信号处理装置71中的虚拟化处理单元13的输出的采样频率高的采样频率的音频信号的每个高范围子频带信号。
通过这种方式,在图7中所示的实例中,根据用于执行频带扩展处理的时间,在输入比特流内包括多项高范围信息。因此,可以在与信号处理装置71中的计算资源等相对应的定时执行频带扩展处理。
具体地,例如,在计算资源中存在余量的情况下,可以使用由“object_bwe_data”表示的高范围信息对用于每个对象并且通过如图4所示的解码处理获取的低FS对象信号执行频带扩展处理。
在这种情况下,针对每个对象执行频带扩展处理,并且随后以高采样频率执行渲染处理或虚拟化处理。
具体地,因为在这种情况下可以使用频带扩展处理以在编码之前获取对象信号,换言之,接近原始声音的信号,所以可以获取具有比在渲染处理之后或虚拟化处理之后执行频带扩展处理的情况下更高质量的输出音频信号。
相反,例如,在没有计算资源余量的情况下,如在信号处理装置71中,可以使用低采样频率执行解码处理、渲染处理、以及虚拟化处理,并且随后使用由“output_bwe_data”表示的高范围信息对低FS音频信号执行频带扩展处理。由此,能够大幅减少整体的处理量(处理负荷)。
此外,例如,在再现装置是扬声器的情况下,解码处理和渲染处理利用低采样频率执行,并且随后由“vspk_bwe_data”表示的高范围信息用于对虚拟扬声器信号执行频带扩展处理。
当如上所述使得诸如“object_bwe_data”、“output_bwe_data”或“vspk_bwe_data”的多个高范围信息项包括在一个输入比特流中时,压缩效率降低。然而,与编码对象信号“object_compressed_data”的数据量相比,这些高范围信息项的数据量非常小,因此,与数据量的增加量相比,可以实现更大的处理负荷减少效果。
<信号生成处理的描述>
接下来,给出关于图6中示出的信号处理装置71的操作的描述。换言之,参考图8中的流程图,以下给出关于由信号处理装置71执行的信号生成处理的描述。
在步骤S11中,解码处理单元11对所提供的输入比特流执行解复用和解码处理,并且将由此获取的高范围信息提供给频带扩展单元41,并且还将对象位置信息和对象信号提供给渲染处理单元12。
在此处,例如,从输入比特流中提取由在图7中所示的“output_bwe_data”表示的高范围信息并且将该高范围信息提供给频带扩展单元41。
在步骤S12中,渲染处理单元12基于从解码处理单元11提供的对象位置信息和对象信号来执行渲染处理,并且将由此获取的虚拟扬声器信号提供至虚拟化处理单元13。例如,在步骤S12中,执行VBAP等作为渲染处理。
在步骤S13中,虚拟化处理单元13进行虚拟化处理。例如,在步骤S13中,执行HRTF处理作为虚拟化处理。
在这种情况下,虚拟化处理单元13将从渲染处理单元12提供的各个虚拟扬声器的虚拟扬声器信号与预先保存的各个虚拟扬声器的HRTF系数进行卷积,并且执行将作为其结果获取的信号相加的处理作为HRTF处理。虚拟化处理单元13将通过HRTF处理获取的低FS音频信号提供至频带扩展单元41。
在步骤S14中,频带扩展单元41基于从解码处理单元11提供的高范围信息,对从虚拟化处理单元13提供的低FS音频信号执行频带扩展处理,并且将由此获取的输出音频信号输出至后续级。当以这种方式生成输出音频信号时,信号生成处理结束。
以上述方式,信号处理装置71使用从输入比特流提取(读出)的高范围信息来执行频带扩展处理并且生成输出音频信号。
在这种情况下,通过对通过执行渲染处理和HRTF处理获取的低FS音频信号执行频带扩展处理,可以减少信号处理装置71中的处理负荷(即,计算量)。因此,即使信号处理装置71是低成本装置,也可以执行高质量的音频再现。
<信号处理装置的配置的实例>
应注意,当通过频带扩展单元41获取的输出音频信号的输出目的地(换言之,再现装置)是扬声器而非耳机时,可以对通过渲染处理单元12获取的虚拟扬声器信号执行频带扩展处理。
在这种情况下,信号处理装置71的配置变成如图9中所示。应注意,在图9中,相同的参考标号被添加至对应于图6中的情况的部分,并且适当地省略其描述。
在图9中示出的信号处理装置71具有解码处理单元11、渲染处理单元12以及频带扩展单元41。
在图9中示出的信号处理装置71的配置与图6中的信号处理装置71的配置的不同之处在于不提供虚拟化处理单元13,并且在其他方面与图6中的信号处理装置71的配置相同。
因此,在图9所示的信号处理装置71中,在执行参照图8描述的步骤S11和步骤S12的处理之后,执行步骤S14的处理,并且执行步骤S13的处理,从而生成输出音频信号。
因此,在步骤S11中,解码处理单元11例如从输入比特流提取由在图7中所示的“vspk_bwe_data”表示的高范围信息,并且将高范围信息提供给频带扩展单元41。此外,当执行步骤S12中的渲染处理时,渲染处理单元12将获取的扬声器信号提供至频带扩展单元41。该扬声器信号对应于通过图6中的渲染处理单元12获取的虚拟扬声器信号,并且例如是具有48kHz的采样频率的低FS扬声器信号。
此外,频带扩展单元41基于从解码处理单元11提供的高范围信息,对从渲染处理单元12提供的扬声器信号执行频带扩展处理,并且将由此获取的输出音频信号输出至后续级。
以这种方式,即使在频带扩展处理之前执行渲染处理的情况下,也可以减少整个信号处理装置71的处理负荷(计算量)。
<编码器的配置的实例>
接下来,给出关于生成图7中所示的输入比特流的编码器(编码装置)的描述。例如,这种编码器被配置为如图10中所示。
在图10中示出的编码器201具有对象位置信息编码单元211、下采样器212、对象信号编码单元213、对象高范围信息计算单元214、渲染处理单元215、扬声器高范围信息计算单元216、虚拟化处理单元217、再现装置高范围信息计算单元218以及多路复用单元219。
编码器201被输入(提供)作为编码目标的对象的对象信号和指示对象的位置的对象位置信息。这里,例如,假设编码器201输入的对象信号是采样频率为96kHz的信号。
对象位置信息编码单元211对输入的对象位置信息进行编码,并将编码的对象位置信息提供至多路复用单元219。
因此,例如,获取包括在图7中所示的水平角“position_azimuth”、垂直角“position_elevation”和半径“position_radius”的编码对象位置信息(对象位置数据),作为编码对象位置信息。
下采样器212对具有96kHz的采样频率的输入的对象信号执行下采样处理(换言之,频带限制),并且将具有48kHz的采样频率并且作为其结果获取的对象信号提供给对象信号编码单元213。
对象信号编码单元213对从下采样器212提供的48kHz对象信号进行编码,并将编码的48kHz对象信号提供给多路复用单元219。因此,例如,获取在图7中表示的“object_compressed_data”作为编码的对象信号。
注意,对象信号编码单元213中的编码方法可以是MPEG-H第3部分:3D音频标准中的编码方法,或者可以是另一编码方法。换言之,如果对象信号编码单元213中的编码方法对应于解码处理单元11中的解码方法(与其是相同标准),那么这是足够的。
对象高范围信息计算单元214基于输入的96kHz对象信号计算高范围信息(频带扩展信息),并且还对获取的高范围信息进行压缩和编码,并且将压缩和编码的高范围信息提供给多路复用单元219。因此,例如,获取图7中所示的“object_bwe_data”作为编码的高范围信息。
例如,由对象高范围信息计算单元214生成的高范围信息是图5中示出的每个高范围子频带的平均振幅信息(平均振幅值)。
例如,对象高范围信息计算单元214对输入的96kHz对象信号执行基于带通滤波器组的滤波,并获取每个高范围子频带的高范围子频带信号。然后,对象高范围信息计算单元214通过计算这些高范围子频带信号中的每个的时间帧的平均振幅值来生成高范围信息。
渲染处理单元215基于输入的对象位置信息和96kHz对象信号执行诸如VBAP的渲染处理,并将由此获取的虚拟扬声器信号提供至扬声器高范围信息计算单元216和虚拟化处理单元217。
应注意,渲染处理单元215中的渲染处理不限于VBAP,并且如果渲染处理单元215中的渲染处理与作为解码侧(再现侧)的信号处理装置71中的渲染处理单元12的情况相同,则可以是其他渲染处理。
扬声器高范围信息计算单元216基于从渲染处理单元215提供的每个声道(即,用于每个虚拟扬声器的虚拟扬声器信号)计算高范围信息,并且还压缩和编码获取的高范围信息并且将压缩和编码的高范围信息提供给多路复用单元219。
例如,在扬声器高范围信息计算单元216中,通过与对象高范围信息计算单元214的情况类似的方法从虚拟扬声器信号生成高范围信息。因此,例如,获取图7中所示的“vspk_bwe_data”,作为虚拟扬声器信号的编码高范围信息。
例如,在再现侧(换言之,信号处理装置71侧)上的扬声器的数量和扬声器布置与通过渲染处理单元215获取的虚拟扬声器信号的扬声器的数量和扬声器布置相同的情况下,以这种方式获取的高范围信息用于信号处理装置71中的频带扩展处理中。例如,在信号处理装置71具有图9中所示的配置的情况下,在频带扩展单元41中使用在扬声器高范围信息计算单元216中生成的高范围信息。
虚拟化处理单元217对从渲染处理单元215提供的虚拟扬声器信号执行诸如HRTF处理的虚拟化处理,并将由此获取的装置再现信号提供给再现装置高范围信息计算单元218。
注意,这里提到的装置再现信号是用于主要通过耳机或多个扬声器再现对象音频的音频信号,换句话说,是用于再现装置的驱动信号。
例如,在预想耳机再现的情况下,装置再现信号是用于耳机的立体声信号(立体声信号驱动信号)。
另外,例如,在设想扬声器再现的情况下,装置再现信号是提供给扬声器的扬声器再现信号(扬声器的驱动信号)。
在这种情况下,装置再现信号与通过渲染处理单元215获取的虚拟扬声器信号不同,并且除了正在执行的HRTF处理以外,还经常产生根据真实扬声器的数量和布置的听觉转移处理产生的装置再现信号。换言之,HRTF处理和听觉转移处理被执行为虚拟化处理。
例如,在再现侧上的扬声器的数量和扬声器布置与在渲染处理单元215中获取的虚拟扬声器信号的扬声器的数量和扬声器布置不同的情况下,从以这种方式获取的装置再现信号生成在后一阶段的高范围信息特别有用。
再现装置高范围信息计算单元218基于从虚拟化处理单元217提供的装置再现信号来计算高范围信息,并且还对获取的高范围信息进行压缩和编码,并将压缩和编码的高范围信息提供给多路复用单元219。
例如,在再现装置高范围信息计算单元218中,通过与对象高范围信息计算单元214的情况类似的方法,从装置再现信号生成高范围信息。因此,例如,获取图7中所示的“output_bwe_data”,作为装置再现信号(即,低FS音频信号)的编码高范围信息。
应注意,在再现装置高范围信息计算单元218中,除了设想耳机再现的高范围信息和设想扬声器再现的高范围信息中的任一个以外,还可生成这两者并将其提供给多路复用单元219。此外,即使在设想扬声器再现的情况下,也可为每个声道配置生成高范围信息,例如,诸如两个声道或5.1声道。
多路复用单元219多路复用从对象位置信息编码单元211提供的编码对象位置信息、从对象信号编码单元213提供的编码对象信号、从对象高范围信息计算单元214提供的编码高范围信息、从扬声器高范围信息计算单元216提供的编码高范围信息以及从再现装置高范围信息计算单元218提供的编码高范围信息。
多路复用单元219输出通过复用对象位置信息、对象信号和高范围信息而获取的输出比特流。该输出比特流作为输入比特流被输入到信号处理装置71。
<编码处理的描述>
接下来,给出关于编码器201的操作的描述。换言之,参照图11中的流程图,下面给出关于编码器201的编码处理的描述。
在步骤S41中,对象位置信息编码单元211对输入的对象位置信息进行编码,并将编码的对象位置信息提供给多路复用单元219。
此外,下采样器212对输入的对象信号进行下采样并且将下采样的对象信号提供给对象信号编码单元213。
在步骤S42中,对象信号编码单元213对从下采样器212提供的对象信号进行编码并且将编码的对象信号提供给多路复用单元219。
在步骤S43中,对象高范围信息计算单元214基于输入的对象信号计算高范围信息,并且还压缩和编码获取的高范围信息,并且将压缩和编码的高范围信息提供给多路复用单元219。
在步骤S44中,渲染处理单元215基于输入的对象位置信息和对象信号执行渲染处理,并且将由此获取的虚拟扬声器信号提供至扬声器高范围信息计算单元216和虚拟化处理单元217。
在步骤S45中,扬声器高范围信息计算单元216基于从渲染处理单元215提供的虚拟扬声器信号计算高范围信息,并且还对获取的高范围信息进行压缩和编码,并且将压缩和编码的高范围信息提供给多路复用单元219。
在步骤S46中,虚拟化处理单元217对从渲染处理单元215提供的虚拟扬声器信号执行诸如HRTF处理的虚拟化处理,并将由此获取的装饰再现信号提供给再现装置高范围信息计算单元218。
在步骤S47中,再现装置高范围信息计算单元218基于从虚拟化处理单元217提供的装置再现信号计算高范围信息,并且还对获取的高范围信息进行压缩和编码,并且将压缩和编码的高范围信息提供给多路复用单元219。
在步骤S48中,多路复用单元219多路复用从对象位置信息编码单元211中提供的编码的对象位置信息、从对象信号编码单元213中提供的编码的对象信号、从对象高范围信息计算单元214中提供的编码的高范围信息、从扬声器高范围信息计算单元216中提供的编码的高范围信息以及从再现装置高范围信息计算单元218中提供的编码的高范围信息。
多路复用单元219输出复用得到的输出码流,编码处理结束。
在以上方式中,编码器201除了用于对象信号的高范围信息之外,还计算用于虚拟扬声器信号或装置再现信号的高范围信息,并且将这些信息存储在输出比特流中。以这种方式,可以在解码侧上的期望的定时对输出比特流执行频带扩展处理,并且可以减少计算量。结果,即使利用低成本装置,也可以执行频带扩展处理和高质量音频再现。
<第一实施方式的第一变形例>
<信号处理装置的配置的实例>
注意,还存在如下情况:根据信号处理装置71的处理能力或计算资源(计算资源)有无余量、电池剩余量(剩余电量)、各处理时的电力消耗量、内容的再现时间段等,在对对象信号执行频带扩展处理之后,可以执行渲染处理或虚拟化处理。
因此,可以在信号处理装置71侧选择何时执行频带扩展处理。在这种情况下,信号处理装置71的配置变成例如如图12所示。应注意,在图12中,相同的参考标号被添加至与图6中的情况对应的部分,并且适当地省略其描述。
在图12中示出的信号处理装置71具有解码处理单元11、频带扩展单元251、渲染处理单元12、虚拟化处理单元13以及频带扩展单元41。此外,在解码处理单元11中还提供选择单元261。
图12中示出的信号处理装置71的配置与图6中的信号处理装置71的不同之处在于新设置有频带扩展单元251和选择单元261,并且在其他方面与图6中的信号处理装置71的配置相同。
选择单元261基于其执行用于选择对象信号的高范围信息和低FS音频信号的高范围信息中的哪一个,来执行频带扩展处理的选择处理。换言之,选择使用对象信号的高范围信息对对象信号执行频带扩展处理,还是使用低FS音频信号的高范围信息对低FS音频信号执行频带扩展处理。
例如,基于信号处理装置71中当前时间的计算资源、信号处理装置71中从解码处理到频带扩展处理的各处理的电力消耗量、信号处理装置71中当前时间的电池剩余量、基于输出音频信号的内容的再现时间段等,执行该选择处理。
具体地,例如,因为从内容的再现时间段和每个处理实例的电力消耗量来知道直到内容再现结束所需要的电力消耗的总量,所以当电池的剩余电量大于或等于电力消耗的总量时,选择使用对象信号的高范围信息的频带扩展处理。
在这种情况下,例如,当电池的剩余电量由于某种原因而变低时或者当计算资源不再存在余量时,甚至通过内容再现的中途,切换到使用低FS音频信号的高范围信息的频带扩展处理。注意,如果在频带扩展处理的这种切换时,适当地相对于输出音频信号执行交叉衰落(crossfade)处理是足够的。
此外,例如,在从内容再现之前在计算资源或电池的剩余电量中不存在余量的情况下,在内容再现开始时选择使用针对低FS音频信号的高范围信息的频带扩展处理。
解码处理单元11响应于来自选择单元261的选择结果输出通过解码处理获取的高范围信息或对象信号。
换言之,在选择使用用于低FS音频信号的高范围信息的频带扩展处理的情况下,解码处理单元11将用于低FS音频信号并且通过解码处理获取的高范围信息提供给频带扩展单元41,并且还将对象位置信息和对象信号提供给渲染处理单元12。
与此相反,在选择使用用于对象信号的高范围信息的频带扩展处理的情况下,解码处理单元11将用于对象信号并通过解码处理获取的高范围信息提供给频带扩展单元251,并且还将对象位置信息和对象信号提供给渲染处理单元12。
频带扩展单元251基于对象信号的高范围信息和从解码处理单元11提供的对象信号执行频带扩展处理,并且将具有较高采样频率并且作为其结果获取的对象信号提供给渲染处理单元12。
<信号生成处理的描述>
接下来,给出关于在图12中示出的信号处理装置71的操作的描述。换言之,参照图13中的流程图,下面给出关于由图12中的信号处理装置71执行的信号生成处理的描述。
在步骤S71中,解码处理单元11对所提供的输入比特流执行解复用和解码处理。
在步骤S72中,选择单元261基于信号处理装置71的计算资源、处理的每个实例的电力消耗量、电池的剩余电量和内容的再现时间段中的至少任何一个,来确定是否在渲染处理和虚拟化处理之前执行频带扩展处理。换言之,关于从对象信号的高范围信息和低FS音频信号的高范围信息中使用哪个高范围信息来执行频带扩展处理,做出选择。
在步骤S72中确定较早执行频带扩展处理的情况下,换句话说,在选择使用用于对象信号的高范围信息的频带扩展处理的情况下,处理随后进行到步骤S73。
在这种情况下,解码处理单元11将通过解码处理获取的对象信号和对象信号的高范围信息提供给频带扩展单元251,并且还将对象位置信息提供给渲染处理单元12。
在步骤S73中,频带扩展单元251基于从解码处理单元11提供的高范围信息和对象信号执行频带扩展处理,并且将作为其结果获取的具有高采样频率的对象信号(换言之,高FS对象信号)提供给渲染处理单元12。
在步骤S73中,执行与图8中的步骤S14类似的处理。然而,在这种情况下,例如,执行频带扩展处理,其中,图7中所示的高范围信息“object_bwe_data”用作对象信号的高范围信息。
在步骤S74中,渲染处理单元12基于从解码处理单元11提供的对象位置信息和从频带扩展单元251提供的高FS对象信号来执行诸如VBAP的渲染处理,并且将所获取的高FS虚拟扬声器信号作为结果提供给虚拟化处理单元13。
在步骤S75中,虚拟化处理单元13基于从渲染处理单元12提供的高FS虚拟扬声器信号和预先保存的HRTF系数来执行虚拟化处理。在步骤S75中,执行与图8中的步骤S13相似的处理。
虚拟化处理单元13将通过虚拟化处理获取的音频信号作为输出音频信号输出至后续阶段,并且信号生成处理结束。
与此相反,在步骤S72中确定不首先执行频带扩展处理的情况下,换言之,在选择使用针对低FS音频信号的高范围信息的频带扩展处理的情况下,处理随后进入步骤S76。
在这种情况下,解码处理单元11将通过解码处理获取的低FS音频信号的高范围信息和对象信号提供给频带扩展单元41,并且还将对象位置信息提供给渲染处理单元12。
随后,执行步骤S76至步骤S78中的处理,并且信号生成处理结束,但是,因为该处理与图8中的步骤S12至步骤S14中的处理相似,所以省略其描述。在这种情况下,在步骤S78中,例如,执行频带扩展处理,其中,使用图7中所示的高范围信息“output_bwe_data”。
在信号处理装置71中,以预定时间间隔(诸如,针对内容的每个帧,换言之,对象信号)执行上述信号生成处理。
以上述方式,信号处理装置71选择使用哪个高范围信息来执行频带扩展处理,按照与选择结果相对应的处理顺序执行处理的每个实例,并且生成输出音频信号。因此,可根据计算资源或电池的剩余电量执行频带扩展处理并生成输出音频信号。因而,如果必要,可以减少计算量,并且甚至利用低成本装置也可以执行高质量的音频再现。
应注意,在图12中示出的信号处理装置71中,可进一步设置对虚拟扬声器信号执行频带扩展处理的频带扩展单元。
在这种情况下,该频带扩展单元基于用于虚拟扬声器信号并从解码处理单元11提供的高范围信息,对从渲染处理单元12提供的虚拟扬声器信号执行频带扩展处理,并且将具有高采样频率并且作为其结果获取的虚拟扬声器信号提供至虚拟化处理单元13。
因而,选择单元261可选择是对对象信号执行频带扩展处理、对虚拟扬声器信号执行频带扩展处理、还是对低FS音频信号执行频带扩展处理。
<第二实施方式>
<信号处理装置的配置的实例>
顺便提及,上面关于通过信号处理装置71中的解码处理获取的对象信号是具有48kHz的采样频率的低-FS对象信号的实例给出了描述。在这个实例中,对通过解码处理获取的低FS对象信号执行渲染处理和虚拟化处理,随后执行频带扩展处理,并且生成具有96kHz的采样频率的输出音频信号。
然而,对此没有限制,例如,通过解码处理获取的对象信号的采样频率可以是与输出音频信号的采样频率相同的96kHz,或者比输出音频信号的采样频率更高的采样频率。
在这种情况下,信号处理装置71的配置变成例如如图14所示。应注意,在图14中,相同的参考标号被添加至对应于图6中的情况的部分,并且省略其描述。
在图14中示出的信号处理装置71具有解码处理单元11、渲染处理单元12、虚拟化处理单元13以及频带扩展单元41。此外,在解码处理单元11中提供对对象信号执行频带限制(换言之,下采样)的频带限制单元281。
图14中示出的信号处理装置71的配置与图6中的信号处理装置71的不同之处在于新设置有频带限制单元281,并且在其他方面与图6中的信号处理装置71的配置相同。
在图14的实例中,当在解码处理单元11中执行针对输入比特流的解复用和解码处理时,例如,获取具有96kHz的采样频率的对象信号。
因而,解码处理单元11中的频带限制单元281对通过解码处理获取的并且具有96kHz的采样频率的对象信号执行频带限制,从而生成具有48kHz的采样频率的低FS对象信号。例如,在这里进行下采样作为频带限制的处理。
解码处理单元11将通过频带限制获取的低FS对象信号和通过解码处理获取的对象位置信息提供给渲染处理单元12。
另外,例如,在使用MDCT(修改的离散余弦变换)来执行时间-频率转换的方法的情况下,如在MPEG-H第3部分:3D音频标准中的编码方法,可以获取低FS对象信号而不执行下采样。
在这种情况下,频带限制单元281对对应于对象信号的MDCT系数(频谱数据)部分地执行逆变换(IMDCT(逆离散余弦变换)),以由此生成具有48kHz的采样频率的低FS对象信号,并且将低FS对象信号提供给渲染处理单元12。注意,例如,日本专利公开号2001-285073等详细描述了用于使用IMDCT来获取具有较低采样频率的信号的技术。
在以上方式中,当将低FS对象信号和对象位置信息从解码处理单元11提供给渲染处理单元12时,此后,执行与图8中的步骤S12至步骤S14相似的处理,并且生成输出音频信号。在这种情况下,对具有48kHz的采样频率的信号执行渲染处理和虚拟化处理。
在该实施方式中,因为通过解码处理获取的对象信号是96kHz信号,所以仅为了减少信号处理装置71中的计算量,在频带扩展单元41中执行使用高范围信息的频带扩展处理。
如上所述,即使在通过解码处理获取的对象信号是96kHz信号的情况下,通过临时生成低FS对象信号并以48kHz的采样频率执行渲染处理或虚拟化处理,可以显著减少计算量。
应注意,在对信号处理装置71中的计算资源存在显著余量的情况下,可能以96kHz的采样频率执行所有处理(换言之,渲染处理或虚拟化处理),并且从对原始声音的保真度的角度来看,这也是期望的。
此外,如在图12中示出的实例中,选择单元261可以设置在解码处理单元11中。
在这样的情况下,在监视信号处理装置71的计算资源或者电池的剩余电量时,选择单元261选择是否以96kHz未改变的采样频率执行渲染处理或者虚拟化处理,并且然后执行频带扩展处理,或者生成低FS对象信号并且以48kHz的采样频率执行渲染处理或者虚拟化处理。
此外,例如,可以通过频带扩展单元41对输出音频信号执行交叉衰减处理等,从而在以96kHz未改变的采样频率执行渲染处理或虚拟化处理或者以48kHz的采样频率执行渲染处理或虚拟化处理之间动态地执行切换。
此外,例如,在由频带限制单元281执行频带限制的情况下,解码处理单元11基于通过解码处理获取的96kHz对象信号,生成用于低FS音频信号的高范围信息,并且将该用于低-FS音频信号的高范围信息提供给频带扩展单元41。
此外,与图14中的情况类似,例如,频带限制单元281还可设置在图9中示出的信号处理装置71中的解码处理单元11中。
在这种情况下,信号处理装置71的配置变成例如如图15所示。注意,在图15中,对与图9或图14中的情况对应的部分添加相同的附图标记,并且适当地省略其描述。
在图15中所示的实例中,信号处理装置71具有解码处理单元11、渲染处理单元12以及频带扩展单元41,并且频带限制单元281设置在解码处理单元11内。
在这种情况下,频带限制单元281对通过解码处理获取的96kHz对象信号执行频带限制,并生成48kHz的低FS对象信号。以这种方式获取的低FS对象信号与对象位置信息一起被提供给渲染处理单元12。
此外,在这个实例中,解码处理单元11可基于通过解码处理获取的96kHz对象信号生成用于低FS扬声器信号的高范围信息并且将用于低FS扬声器信号的该高范围信息提供至频带扩展单元41。
此外,频带限制单元281也可以设置在图12示出的信号处理装置71中的解码处理单元11中。在这种情况下,例如,将通过频带限制单元281中的频带限制获取的低FS对象信号提供给渲染处理单元12,并且随后执行渲染处理、虚拟化处理和频带扩展处理。因而,在这种情况下,例如,在选择单元261中选择是否在频带扩展单元251中执行频带扩展之后执行渲染处理和虚拟化处理,是否在执行频带限制之后执行渲染处理、虚拟化处理和频带扩展处理,或者是否在不执行频带限制的情况下执行渲染处理、虚拟化处理和频带扩展处理。
借助于如上所述的本技术,关于在信号处理(例如,渲染处理或者虚拟化处理)之后的信号的高范围信息用于执行频带扩展处理,而非关于在解码侧(再现侧)上的对象信号的高范围信息,因此,可以以低采样频率执行解码处理、渲染处理、或者虚拟化处理,并且显著减少计算量。因此,例如,可以采用低成本处理器或降低处理器的用电量,并且可以在诸如智能电话的便携式设备上执行更长时间量的高分辨率声源的连续再现。
<计算机的配置的实例>
顺便提及,上述一系列处理可以由硬件执行并且还可以由软件执行。在通过软件执行一系列处理的情况下,构成软件的程序安装在计算机上。这里,计算机包括并入专用硬件的计算机,或例如通用个人计算机等,其可通过安装在其中的各种程序执行各种功能。
图16是示出使用程序执行上述一系列处理的计算机的硬件的配置的实例的框图。
在计算机中,CPU(中央处理单元)501、ROM(只读存储器)502、以及RAM(随机存取存储器)503通过总线504相互连接。
输入/输出接口505也连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接至输入/输出接口505。
输入单元506包括键盘、鼠标、麦克风、图像捕获元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可移动记录介质511,可移动记录介质511是磁盘、光盘、磁光盘、半导体存储器等。
在如上配置的计算机中,CPU501例如经由输入/输出接口505和总线504将记录在记录单元508中的程序加载到RAM 503中,并且执行该程序,由此执行上述一系列处理。
例如,由计算机(CPU 501)执行的程序可以通过记录在对应于封装介质等的可移动记录介质511上来提供。此外,可经由有线或无线传输介质(诸如局域网、互联网或数字卫星广播)提供程序。
在计算机中,可移动记录介质511安装到驱动器510中,从而可经由输入/输出接口505将程序安装到记录单元508中。此外,程序可经由有线或无线传输介质由通信单元509接收,并安装到记录单元508中。此外,程序可以提前安装到ROM 502或记录单元508上。
应注意,由计算机执行的程序可以是遵循本说明书中描述的顺序按照时间序列执行处理的程序,或者可以是并行或在诸如当执行调用时的必要定时执行处理的程序。
此外,本技术的实施方式不限于上述实施方式,并且在不偏离本技术的实质的范围内可以进行各种修改。
例如,本技术可以具有云计算配置,其中,经由网络在多个装置之间共享一个功能,并且共同执行处理。
此外,除了由一个装置执行之外,在上述流程图中描述的每个步骤还可以在多个装置之间共享并且由多个装置执行。
此外,在一个步骤中包括多个处理实例的情况下,除了由一个装置执行之外,包括在一个步骤中的多个处理实例还可以在多个装置之间共享并由多个装置执行。
此外,本技术可以具有以下配置。
(1)
一种信号处理装置,包括:
获取单元,获取第一音频信号、用于第一音频信号的频带扩展的第一频带扩展信息以及用于通过对第一音频信号执行预定信号处理而获取的第二音频信号的频带扩展的第二频带扩展信息;
选择单元,基于第一频带扩展信息和第二频带扩展信息中的哪一个执行频带扩展;以及
频带扩展单元,基于所选择的第一频带扩展信息或第二频带扩展信息以及第一音频信号或第二音频信号,执行频带扩展并生成第三音频信号。
(2)
根据(1)的信号处理装置,其中
选择单元基于信号处理装置的计算资源、信号处理装置的功耗量、信号处理装置的剩余电量以及基于第三音频信号的内容再现时间段中的至少任意一个,选择基于第一频带扩展信息和第二频带扩展信息中的哪一个执行频带扩展。
(3)
根据(1)或(2)的信号处理装置,其中
第一音频信号包括用于对象音频的对象信号,以及
预定信号处理包括关于虚拟扬声器的渲染处理和虚拟化处理中的至少一个。
(4)
根据(3)的信号处理装置,其中
第二音频信号包括通过渲染处理获取的并且用于虚拟扬声器的虚拟扬声器信号,或者通过虚拟化处理获取的并且用于再现装置的驱动信号。
(5)
根据(4)的信号处理装置,其中
再现装置包括扬声器或耳机。
(6)
根据(4)或(5)的信号处理装置,其中
第二频带扩展信息是关于与虚拟扬声器信号相对应并且具有比虚拟扬声器信号更高的采样频率的虚拟扬声器信号的高范围信息,或者是关于与驱动信号相对应并且具有比驱动信号更高的采样频率的驱动信号的高范围信息。
(7)
根据(1)至(6)中任一项的信号处理装置,其中
第一频带扩展信息是关于与第一音频信号对应并且具有比第一音频信号高的采样频率的音频信号的高范围信息。
(8)
根据(1)至(5)中任一项的信号处理装置,进一步包括:
信号处理单元,执行预定信号处理。
(9)
根据(8)的信号处理装置,进一步包括:
频带限制单元,对第一音频信号执行频带限制,
其中,信号处理单元对由于频带限制而获取的音频信号执行预定信号处理。
(10)
根据(9)的信号处理装置,其中
获取单元基于第一音频信号生成第二频带扩展信息。
(11)
一种信号处理方法,包括:
信号处理装置;
获取单元第一音频信号、用于第一音频信号的频带扩展的第一频带扩展信息以及用于通过对第一音频信号执行预定信号处理而获取的第二音频信号的频带扩展的第二频带扩展信息;
选择基于第一频带扩展信息和第二频带扩展信息中的哪一个来执行频带扩展;以及
基于所选择的第一频带扩展信息或第二频带扩展信息以及第一音频信号或第二音频信号,执行频带扩展并且生成第三音频信号。
(12)
一种程序,用于使计算机执行包括以下步骤的处理:
获取第一音频信号、用于第一音频信号的频带扩展的第一频带扩展信息以及用于通过对第一音频信号执行预定信号处理而获取的第二音频信号的频带扩展的第二频带扩展信息;
选择基于第一频带扩展信息和第二频带扩展信息中的哪一个来执行频带扩展;以及
基于所选择的第一频带扩展信息或第二频带扩展信息以及第一音频信号或第二音频信号,执行频带扩展并且生成第三音频信号。
[参考标号列表]
11:解码处理单元
12:渲染处理单元
13:虚拟化处理单元
41:频带扩展单元
71:信号处理装置
201:编码器
211:对象位置信息编码单元
214:对象高范围信息计算单元
216:扬声器高范围信息计算单元
218:再现装置高范围信息计算单元
261:选择单元
281:频带限制单元。
Claims (12)
1.一种信号处理装置,包括:
获取单元,获取第一音频信号、用于所述第一音频信号的频带扩展的第一频带扩展信息以及用于通过对所述第一音频信号执行预定信号处理而获取的第二音频信号的频带扩展的第二频带扩展信息;
选择单元,选择基于所述第一频带扩展信息和所述第二频带扩展信息中的哪一个执行所述频带扩展;以及
频带扩展单元,基于选择的所述第一频带扩展信息或所述第二频带扩展信息,以及所述第一音频信号或所述第二音频信号,执行所述频带扩展并生成第三音频信号。
2.根据权利要求1所述的信号处理装置,其中
所述选择单元基于所述信号处理装置的计算资源、所述信号处理装置的功耗量、所述信号处理装置的剩余电量以及基于所述第三音频信号的内容再现时间段中的至少任意一项,选择基于所述第一频带扩展信息和所述第二频带扩展信息中的哪一个执行所述频带扩展。
3.根据权利要求1所述的信号处理装置,其中
所述第一音频信号包括对象音频的对象信号,以及
所述预定信号处理包括虚拟化处理和关于虚拟扬声器的渲染处理中的至少一项。
4.根据权利要求3所述的信号处理装置,其中
所述第二音频信号是通过所述渲染处理获取的所述虚拟扬声器的虚拟扬声器信号,或者通过所述虚拟化处理获取的再现装置的驱动信号。
5.根据权利要求4所述的信号处理装置,其中
所述再现装置包括扬声器或耳机。
6.根据权利要求4所述的信号处理装置,其中
所述第二频带扩展信息是与所述虚拟扬声器信号对应的、具有比所述虚拟扬声器信号更高的采样频率的虚拟扬声器信号的高范围信息,或者是与所述驱动信号对应的、具有比所述驱动信号更高的采样频率的驱动信号的高范围信息。
7.根据权利要求1所述的信号处理装置,其中
所述第一频带扩展信息是与所述第一音频信号对应的、具有比所述第一音频信号更高的采样频率的音频信号的高范围信息。
8.根据权利要求1所述的信号处理装置,进一步包括:
信号处理单元,执行所述预定信号处理。
9.根据权利要求8所述的信号处理装置,其中,还包括:
频带限制单元,对所述第一音频信号执行频带限制,
其中所述信号处理单元对通过所述频带限制而获取的音频信号执行所述预定信号处理。
10.根据权利要求9所述的信号处理装置,其中
所述获取单元基于所述第一音频信号生成所述第二频带扩展信息。
11.一种信号处理方法,包括由信号处理装置:
获取第一音频信号、用于所述第一音频信号的频带扩展的第一频带扩展信息以及用于通过对所述第一音频信号执行预定信号处理而获取的第二音频信号的频带扩展的第二频带扩展信息;
选择基于所述第一频带扩展信息和所述第二频带扩展信息中的哪一个执行所述频带扩展;以及
基于选择的所述第一频带扩展信息或所述第二频带扩展信息,以及所述第一音频信号或所述第二音频信号,执行所述频带扩展并且生成第三音频信号。
12.一种程序,用于使计算机执行包括以下步骤的处理:
获取第一音频信号、用于所述第一音频信号的频带扩展的第一频带扩展信息以及用于通过对所述第一音频信号执行预定信号处理而获取的第二音频信号的频带扩展的第二频带扩展信息;
选择基于第一频带扩展信息和第二频带扩展信息中的哪一个,执行频带扩展;以及
基于选择的所述第一频带扩展信息或所述第二频带扩展信息,以及所述第一音频信号或所述第二音频信号,执行频带扩展并且生成第三音频信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-106972 | 2020-06-22 | ||
JP2020106972 | 2020-06-22 | ||
PCT/JP2021/021663 WO2021261235A1 (ja) | 2020-06-22 | 2021-06-08 | 信号処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115836535A true CN115836535A (zh) | 2023-03-21 |
Family
ID=79282562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180043091.5A Withdrawn CN115836535A (zh) | 2020-06-22 | 2021-06-08 | 信号处理装置、方法和程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230345195A1 (zh) |
EP (1) | EP4171065A4 (zh) |
JP (1) | JPWO2021261235A1 (zh) |
CN (1) | CN115836535A (zh) |
WO (1) | WO2021261235A1 (zh) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001285073A (ja) | 2000-03-29 | 2001-10-12 | Sony Corp | 信号処理装置及び方法 |
US7236839B2 (en) * | 2001-08-23 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Audio decoder with expanded band information |
JP3861770B2 (ja) * | 2002-08-21 | 2006-12-20 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
JP2006323037A (ja) * | 2005-05-18 | 2006-11-30 | Matsushita Electric Ind Co Ltd | オーディオ信号復号化装置 |
EP2146344B1 (en) * | 2008-07-17 | 2016-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding/decoding scheme having a switchable bypass |
KR101461774B1 (ko) * | 2010-05-25 | 2014-12-02 | 노키아 코포레이션 | 대역폭 확장기 |
JP5707842B2 (ja) * | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
SG11201505920RA (en) * | 2013-01-29 | 2015-08-28 | Fraunhofer Ges Forschung | Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates |
PL3070713T3 (pl) * | 2013-01-29 | 2018-07-31 | Fraunhofer Ges Forschung | Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, stosujące adaptacyjne względem sygnału powiększanie szerokości pasma |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
WO2020027061A1 (ja) * | 2018-08-02 | 2020-02-06 | 日本電信電話株式会社 | 会話サポートシステム、その方法、およびプログラム |
CN116018641A (zh) * | 2020-09-03 | 2023-04-25 | 索尼集团公司 | 信号处理装置和方法、学习装置和方法以及程序 |
-
2021
- 2021-06-08 WO PCT/JP2021/021663 patent/WO2021261235A1/ja not_active Application Discontinuation
- 2021-06-08 EP EP21830134.9A patent/EP4171065A4/en not_active Withdrawn
- 2021-06-08 CN CN202180043091.5A patent/CN115836535A/zh not_active Withdrawn
- 2021-06-08 US US18/001,719 patent/US20230345195A1/en active Pending
- 2021-06-08 JP JP2022531695A patent/JPWO2021261235A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4171065A4 (en) | 2023-12-13 |
US20230345195A1 (en) | 2023-10-26 |
WO2021261235A1 (ja) | 2021-12-30 |
EP4171065A1 (en) | 2023-04-26 |
JPWO2021261235A1 (zh) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10555104B2 (en) | Binaural decoder to output spatial stereo sound and a decoding method thereof | |
KR100928311B1 (ko) | 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법 | |
US9055371B2 (en) | Controllable playback system offering hierarchical playback options | |
KR100908055B1 (ko) | 부호화/복호화 장치 및 방법 | |
US9219972B2 (en) | Efficient audio coding having reduced bit rate for ambient signals and decoding using same | |
JP4944902B2 (ja) | バイノーラルオーディオ信号の復号制御 | |
JP5227946B2 (ja) | フィルタ適応周波数分解能 | |
Cobos et al. | An overview of machine learning and other data-based methods for spatial audio capture, processing, and reproduction | |
CN112823534B (zh) | 信号处理设备和方法以及程序 | |
KR101439205B1 (ko) | 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치 | |
WO2019078034A1 (ja) | 信号処理装置および方法、並びにプログラム | |
KR100763919B1 (ko) | 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치 | |
CN114631141A (zh) | 使用方向性元数据的多通道音频编码和解码 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
CN116018641A (zh) | 信号处理装置和方法、学习装置和方法以及程序 | |
US20230360665A1 (en) | Method and apparatus for processing audio for scene classification | |
CN115836535A (zh) | 信号处理装置、方法和程序 | |
KR102161157B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
JP7711053B2 (ja) | 方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化 | |
JP6846822B2 (ja) | オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230321 |