CN109478407B - 用于处理输入信号的编码装置和用于处理编码后的信号的解码装置 - Google Patents
用于处理输入信号的编码装置和用于处理编码后的信号的解码装置 Download PDFInfo
- Publication number
- CN109478407B CN109478407B CN201780026995.0A CN201780026995A CN109478407B CN 109478407 B CN109478407 B CN 109478407B CN 201780026995 A CN201780026995 A CN 201780026995A CN 109478407 B CN109478407 B CN 109478407B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- model
- perceptual
- signal
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/70—Services for machine-to-machine communication [M2M] or machine type communication [MTC]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
本发明涉及一种用于处理输入信号(3)的装置(1),包括感知加权器(10)和量化器(14)。感知加权器(10)包括模型提供器(12)和模型应用器(13)。模型提供器(12)基于输入信号(3)提供感知加权模型(W)。模型应用器(13)通过对基于输入信号(3)的频谱(s)应用感知加权模型(W)来提供感知加权频谱(x)。量化器(14)被配置为量化感知加权频谱(x)并提供比特流量化器(14)包括随机矩阵应用器(16)和符号函数计算器(17)。随机矩阵应用器(16)被配置用于对感知加权频谱(x)应用随机矩阵(P),以便提供变换后的频谱(u)。符号函数计算器(17)被配置用于计算变换后的频谱(u)的分量的符号函数,以便提供比特流本发明还涉及用于处理编码后的信号(4)的装置(2)和对应的方法。
Description
技术领域
本发明涉及一种用于处理输入信号的编码装置和一种用于处理编码后的信号的解码装置。本发明还涉及对应的方法和计算机程序。
背景技术
语音和音频编解码器的中心部分是它们的感知模型,这些感知模型描述了信号表示的不同元素的误差的相对感知重要性。在实践中,感知模型由用于量化每个元素的依赖于信号的加权因子组成。为了获得最优性能,期望在解码器处使用相同的感知模型。尽管感知模型依赖于信号,然而,在解码器处预先对此不知情,因此音频编解码器通常以增加的比特消耗为代价显式地发送该模型。
物联网(IoT)时代即将来临,下一代语音和音频编码器应该拥抱它。然而,IoT系统的设计目标与语音和音频编码器的经典设计相差甚远,因此需要对编码器进行更大规模的重新设计。
首先,最先进的语音和音频编码器(比如,AMR-WB、EVS、USAC和AAC)由智能和复杂编码器以及相对简单的解码器[1-4]组成,因为IoT应支持分布式低复杂度传感器节点,因此编码器最好是简单的。
其次,由于传感器节点对相同的源信号进行编码,因此在每个传感器节点处应用相同的量化将表示过编码,并且可能导致效率的严重损失。特别是,由于感知模型在每个节点处应该或多或少相同,因此从每个节点发送感知模型几乎是纯粹的过编码。
常规的语音和音频编码方法由以下三部分组成:
1.感知模型,其指定编解码器的不同参数中误差的相对影响,
2.源模型,其描述不同输入的范围和似然性,以及
3.熵编码器,其利用源模型来最小化感知失真[5]。
此外,感知模型可以以以下两种方式中的任一方式来应用:
1.可以根据感知模型对信号参数进行加权,使得然后可以以相同的精确度量化所有参数。然后必须向解码器发送感知模型,以便可以撤消加权。
2.备选地,感知模型可以用作评估模型,使得在合成分析迭代中,通过感知模型对不同量化的合成输出进行比较、加权。尽管这里不必发送感知模型,但是这种方法的缺点在于量化单元形状不是规则地成形的,这降低了编码效率。然而,更重要的是,为了找到最优量化,必须使用不同量化的计算复杂的强力搜索。
由于合成分析方法因此产生计算复杂的编码器,因此它不是用于IoT的可行备选方案。因此,解码器必须能够访问感知模型。然而,如上所述,感知模型的显式发送(或等效地,信号频谱的包络模型)是不期望的,因为它降低了编码效率。
发明内容
本发明的目的是提供一种在没有关于感知模型的辅助信息的情况下在解码器处根据发送的信号来恢复感知模型的方法。
该目的通过一种用于处理输入信号的编码装置以及一种用于处理编码后的信号的解码装置来实现。该目的还通过对应的方法和包括编码装置和解码装置在内的系统来实现。
本发明在分布式传感器网络和物联网中特别有用,其中,发送感知模型所用的比特消耗的附加成本随着传感器的数量的增加而增加。
根据一个实施例,本发明还可以被标记为在分布式语音和音频编码时对感知模型进行盲恢复。
这里,输入信号是要由编码装置编码的语音和/或音频信号。
该目的通过用于处理输入信号的编码装置来实现。编码装置优选地提供编码后的信号。
编码装置包括感知加权器和量化器。
感知加权器包括模型提供器和模型应用器。模型提供器被配置用于基于输入信号提供感知加权模型。模型应用器被配置用于通过对基于输入信号的频谱应用感知加权模型,来提供感知加权频谱。
量化器被配置为量化感知加权频谱并提供比特流。量化器包括随机矩阵应用器和符号函数计算器。随机矩阵应用器被配置用于对感知加权频谱应用随机矩阵,以便提供变换后的频谱。符号函数计算器被配置用于计算变换后的向量的分量的符号(或者正负号)函数,以便提供比特流。
量化包括至少以下两个步骤:在第一步骤中,将感知加权频谱与随机矩阵组合。这种随机矩阵的优点在于,对于每个输入信号,使用不同的矩阵。当多个传感器覆盖相同的音频源并且必须避免过编码时,这变得有用。第二步骤包括:计算变换后的向量的分量的符号函数。
在一个实施例中,模型提供器被配置用于基于对基于输入函数的频谱的压缩来提供感知加权模型。
在一个实施例中,在本发明的编码装置中,输入信号的感知加权基于对输入信号的压缩。在一个实施例中,感知加权基于对输入信号的幅度频谱的包络的压缩(包络是描述信号的特性(幅度频谱的特性)的连续的、通常平滑的形状)。基于压缩,获得感知加权模型,其最终用于对输入信号的频谱进行感知加权。
在一个实施例中,编码装置提供具有辅助信息的比特流,该辅助信息覆盖关于编码处理的一些方面。
在实施例中,提供关于量化的信息来作为由编码装置输出的、作为编码处理的结果的、编码后的信息的辅助信息。
在另一实施例中,感知加权器包括包络计算器。包络计算器被配置用于提供基于输入信号的幅度频谱的包络。
在一个实施例中,模型提供器被配置用于计算描述对包络的压缩的压缩函数。此外,模型提供器被配置用于基于压缩函数来计算所述感知加权模型。在该实施例中,模型提供器压缩包络,并且计算描述该压缩的函数。基于该函数,获得感知加权模型。在该实施例中,执行对基于输入信号的频谱的包络的压缩,即减小幅度范围,由此压缩后的包络比压缩前的小。通过压缩包络,同样对频谱进行了压缩,即减小频谱的幅度范围。
在不同的实施例中,根据输入信号或基于输入信号的幅度/功率频谱直接计算感知加权模型或压缩函数。
根据实施例,模型提供器被配置用于计算压缩函数,压缩函数描述对基于输入信号的频谱的压缩或者描述对基于输入信号的幅度频谱的包络的压缩。压缩减小基于输入信号的频谱的幅度范围或者减小包络的幅度范围。此外,模型提供器被配置用于基于压缩函数来计算所述感知加权模型。
在实施例中,用于压缩例如频谱或者包络的压缩函数满足两个准则:
首先,压缩函数严格增加。这意味着:对于任何正标量值和任意小的值,针对正标量值的函数值小于针对正标量值和任意小的值之和的函数值。
其次,对于第一正标量值和大于第一正标量值的第二正标量值,针对第二正标量值的函数值与针对第一正标量值的函数值之间的差小于第二正标量值和第一正标量值之间的差。
该目的还通过一种用于处理输入信号的方法来实现。该输入信号优选地是音频信号和/或语音信号。
用于处理输入信号(音频和/或语音信号)的方法至少包括以下步骤:
基于输入信号计算感知加权模型,
通过对基于输入信号的频谱应用感知加权模型来提供感知加权频谱,以及
量化感知加权频谱以提供比特流,
其中,量化感知加权频谱包括:
对感知加权频谱应用随机矩阵,以便提供变换后的频谱,以及
计算变换后的频谱的分量的符号函数以便提供比特流。
在实施例中,执行以下步骤:
基于输入信号计算幅度频谱的包络,
基于对包络的压缩来计算感知加权模型。
编码装置的实施例也可以通过该方法的步骤和该方法的对应实施例来执行。因此,针对装置的实施例给出的说明也适用于该方法。
该目的还通过用于处理输入信号的方法来实现,
所述方法包括:
基于输入信号提供感知加权模型,
通过对输入信号的频谱应用感知加权模型来加权输入信号的频谱,以及
通过计算加权频谱的随机投影的符号函数来量化加权频谱。
在实施例中,所述方法还包括:
通过对加权频谱应用随机矩阵来获得加权频谱的随机投影。
在实施例中,提供感知加权模型包括对输入信号的幅度频谱的包络进行压缩。
根据实施例,所述方法还包括:
通过使用滤波器组和包含针对每个频带的归一化因子在内的对角线矩阵来获得包络。
该目的还通过一种用于处理编码后的信号的解码装置来实现。
解码装置至少包括解量化器和感知解加权器。
解量化器被配置为对编码后的信号包括的比特流进行解量化,并用于提供计算的感知加权频谱。此外,解量化器被配置为通过对比特流应用随机矩阵的伪逆来解量化比特流。解量化器反转在编码处理期间发生的量化的效果。解量化器之后是感知解加权器,使得对由解量化产生的频谱进行感知解加权。计算的感知加权频谱由感知解加权器接收,以便感知解加权。因此,最终获得的频谱是通过对输入信号所包括的比特流进行感知解加权、解量化而得到的比特流。
感知解加权器反转了产生编码后的信号的编码处理期间发生的感知加权的效果。在一个实施例中,这是在没有包括感知加权模型的编码后的信号的辅助信息的情况下完成的。根据这种编码后的音频信号来重新构建模型。
感知解加权器包括频谱近似器和模型近似器。
在一个实施例中,以需要起始值或初始值的迭代方式来完成模型的重新构建。因此,感知解加权器所包括的初始猜测提供器被配置用于提供针对与编码后的信号相关联的感知加权模型的初始猜测的数据。在一个实施例中,针对初始猜测的数据包括具有描述感知加权模型的矩阵的对角线元素的向量。
频谱近似器被配置用于基于计算的感知加权频谱来计算频谱的近似值。此外,模型近似器被配置用于基于频谱的近似值来计算与编码后的信号相关联的感知加权模型(即,用于对输入信号进行编码并由此产生编码后的信号的感知加权模型)的近似值。
在实施例中,感知解加权器包括初始猜测提供器。初始猜测提供器被配置用于提供针对感知加权模型的初始猜测的数据。频谱近似器被配置用于基于编码后的信号和感知加权模型的初始猜测或近似值来计算频谱的近似值。此外,在实施例中,频谱的近似值基于初始猜测或基于(特别是计算的)感知加权模型的近似值。这种选择取决于利用初始猜测的迭代是否刚刚开始、或者利用近似值的至少一个改进的至少一个迭代(这样的迭代会产生感知加权模型的近似值)是否已经进行。在一个实施例中,执行迭代,直到满足收敛准则为止。
在一个实施例中,解量化器被配置为基于编码后的信号所包括的与随机矩阵有关的辅助信息,来对编码后的信号所包括的比特流进行解量化。该实施例涉及使用随机矩阵执行量化的编码处理。与所使用的随机矩阵有关的信息由编码后的信号的辅助信息包括。在一个实施例中,辅助信息仅包括随机矩阵的列的种子。
在一个实施例中,联合处理多个编码后的信号。每个编码后的信号包括具有辅助信息的比特流,该辅助信息至少关于与在提供相应编码后的信号时执行的量化有关的信息。为此目的,在一个实施例中,解量化器被配置为接收多个输入信号,并且基于多个输入信号仅提供一个计算的感知加权频谱。输入信号优选地指代源自相同信号源的音频/语音信号。
在另一实施例中,解码装置被配置为应用源建模。源模型描述了不同输入的范围和似然性。
该目的还通过一种用于处理编码后的信号的方法来实现。该编码后的信号优选地是编码后的音频信号和/或编码后的语音信号。
用于处理(或解码)编码后的信号的方法至少包括以下步骤:
对编码后的信号包括的比特流进行解量化,并提供计算的感知加权频谱,
其中,对比特流进行解量化包括对比特流应用随机矩阵的伪逆,
基于计算的感知加权频谱来计算频谱的近似值,以及
基于频谱的近似值来计算与编码后的信号相关联的感知加权模型(即,用于产生编码后的信号的感知加权模型)的近似值。
在一个实施例中,所述方法包括以下步骤:
基于计算的感知加权频谱和初始猜测或者基于计算的感知加权频谱和与编码后的信号相关联的感知加权模型的近似值,来计算频谱的近似值。
感知加权模型的计算的近似值优选地用于下一次计算频谱的近似值。
该目的还通过一种用于处理编码后的信号的方法来实现,
所述方法包括:
通过对编码后的信号应用随机矩阵的伪逆来提供量化的感知信号,
基于量化的感知信号计算频谱的估计值,以及
基于频谱的近似值来计算用于提供编码后的信号的感知加权模型的近似值。
根据实施例,所述方法还包括:
使用初始猜测来提供感知加权模型的第0个近似值,以及
基于感知加权模型的第0个近似值计算频谱的第0个估计值。
在另一实施例中,所述方法还包括:
通过使用滤波器组和包含针对每个频带的归一化因子的对角线矩阵来获得初始猜测。
装置的实施例也可以通过该方法的步骤和该方法的对应实施例来执行。因此,针对装置的实施例给出的说明也适用于该方法。
该目的还通过包括至少一个编码装置和解码装置在内的系统来实现。在一个实施例中,使用在一个实施例中与传感器节点(例如,麦克风)相关联的多个编码装置。
此外,该目标还通过一种计算机程序来实现,该计算机程序当运行于计算机或处理器上时执行任何前述实施例的方法。
附图说明
下面将参考附图和附图中描述的实施例来说明本发明,在附图中:
图1示出了包括编码装置和解码装置在内的第一实施例系统的框图,
图2示出了编码装置的实施例的框图,
图3示出了作为编码装置的一部分的感知加权器的框图,
图4示出了属于编码处理的信号,
图5示出了包括多个编码装置在内的系统的第二实施例的框图,
图6示出了系统的第三实施例的更详细框图,
图7示出了解码装置的实施例的框图,
图8示出了解码装置的不同实施例的框图,
图9示出了作为解码装置的一部分的感知解加权器的实施例,
图10示出了属于解码处理的信号,
图11示出了针对实验数据的具有不同比特率的平均SNR值,以及
图12示出了针对实验数据的差分MUSHRA分数。
具体实施方式
图1示出了用于处理输入信号3的系统,输入信号3是语音和/或音频信号。该输入信号3由编码装置1编码。例如,经由互联网向解码装置2发送编码后的信号4(优选地,是比特流),解码装置2解码编码后的信号4,并且向听众(未示出)提供所提取的音频信号5。
编码装置1使用感知加权模型来处理输入信号3,但是该模型不由编码信号4发送。解码装置2从编码后的信号4中提取模型,以便撤消模型的效果。
图2所示的编码装置1包括变换器15、感知加权器10和量化器14。
变换器15基于作为时间信号的输入信号3来提供频谱s。这例如通过短时傅里叶变换(STFT)来完成。
频谱s通过感知加权器10经历感知加权,变为感知加权后的频谱x。向量化器14提交该频谱x,量化器14对其进行量化,并且提供量化后的信号来作为比特流。在该实施例中,该量化后的信号与覆盖关于量化的信息(但在该实施例中,不是关于感知加权模型)的对应辅助信息相结合,以提供编码后的信号4。
图3示出了感知加权器10的实施例。
感知加权器10接收输入信号3或者在输入信号3变换到频域之后接收对应的频谱,并且提供感知加权后的频谱x。为此目的,感知加权器10包括包络计算器11、模型提供器12和模型应用器13。
包络计算器11接收输入信号3或对应的频谱,并且提供基于输入信号3的幅度频谱|x|的包络y。在所示实施例中,包络计算器11通过矩阵A和对角线矩阵Λ提供包络y。矩阵A是滤波器组,并且对角线矩阵Λ包含针对所使用的滤波器频带的每个频带的归一化因子。然后,通过等式y=AΛAT|x|基于输入信号3的幅度频谱|x|获得包络y,而AT是矩阵A的转置。
基于该包络y,模型提供器12压缩包络y。压缩的目的是获得近似于耳朵的感知性能的功能。在下文中,讨论了这样一个实施例,其中通过将y提高到幂次为p来压缩包络。例如,当p等于0.3时,则yp的范围将小于原始y的范围。因此,在该示例中,压缩量取决于值p。例如,包络减小到所需范围。在一个实施例中,用于压缩包络y的范围减小或压缩函数由yp且0<p<1给出。这意味着压缩是通过包络的、具有大于0且小于1的指数的指数函数执行的。在一个实施例中,以逐样本方式(sample-wise)来执行该压缩。
压缩函数f(y)描述了向量w(即w=f(y)),其给出了感知加权模型W的对角线元素。这里,输入y作为向量给出,对向量y的所有样本应用函数f,得到向量w。因此,如果y的第k个样本是yk,则w=f(y)的第k个样本是Wk=f(yk)。
因此,基于压缩函数,可以获得感知加权模型W(这里是矩阵的形式)。
换句话说:压缩幅度频谱的包络,并且根据描述压缩包络的函数,计算用于感知地对频谱进行加权的感知加权模型。
模型应用器13对基于输入信号3的频谱s应用感知加权模型W。在所示实施例中,模型应用器13对基于频谱的向量应用感知加权模型W的矩阵。
现在将再次说明感知建模:
语音和音频编解码器基于人类听觉感知的有效建模。目标是获得量化误差的这种加权,使得加权域中的信噪比的优化给出感知上可能最优的质量。
音频编解码器通常在频谱域中操作,其中,可以用对角线矩阵W来感知地加权输入帧的频谱s,使得加权后的频谱x=Ws可以被量化为其中括号表示量化。
在解码器处,可以重新构建逆操作
具体地,感知加权模型由以下两部分组成:
i)与不同频带处的感知限制相对应的固定部分。诸如Bark和ERB尺度之类的感知模型对频率密度进行建模,使得翘曲轴具有均匀的感知精确度[17]。然而,由于目标是在翘曲尺度上测量误差能量,因此可以等效地缩放频谱分量的幅度,使得可以避免计算复杂的翘曲操作[18]。该操作也类似于在语音编解码器中应用的预加重操作[1-3]。由于加权这部分是固定的,因此不需要显式地发送。可以在编码器处应用加权,并且直接将其在解码器处反转。
ii)感知模型的信号自适应部分与感知的频率掩蔽特性相对应。也就是说,如果两个信号在频率上足够接近,则信号的高能量分量将掩盖较低的能量分量,从而使较低的能量分量听不见[5]。因此,频率掩蔽曲线的形状等于信号包络的形状,但具有较小的幅度。
在实施例中,如果|x|是输入信号的幅度频谱,则可以通过y=AAAT|x|来获得幅度频谱|x|的频谱包络y,其中矩阵A是例如图4中(a)中的滤波器组。
与普通MFCC型滤波器组[19]不同,在一个实施例中,使用非对称汉宁(Hann)窗型窗口,其具有从第k个滤波器延伸到第(k-2)和第(k+2)个滤波器的重叠(参见图4中(a))。
对角线矩阵Λ包含针对每个频带的归一化因子,从而获得单位增益。
根据实施例,使用具有合适数量的频带的Mel-尺度、Bark-尺度或ERB-尺度。
在12.8kHz的采样速率下,这里使用具有20个频带的Mel-滤波器组。
MFCC型滤波器组矩阵的备选方案是通过滤波来进行扩展,由此A变为卷积矩阵。由于滤波操作是众所周知的数字信号处理方法,因此也容易找到它们的逆。
感知加权因子对频率掩蔽效果进行建模,频率掩蔽效果则与频率上的能量扩展和缩放[20,5]相对应。包络模型矩阵A已经实现了扩展的效果,由此仍然需要对能量的缩放进行建模。
能量缩放与对信号的压缩相对应,这减小了包络的幅度范围(参见图4中(b))。因此,如果频谱s与感知加权矩阵W相乘,则获得具有减小范围的频谱x=Ws(参见图4中(c))。
因此,感知加权会减小范围或使频谱变平,但它不会产生具有完全平坦包络的频谱。包络的范围减小,从而保持了包络范围的一部分,并且其余范围可以用于在扩展包络之后恢复原始信号。
例如,可以将用于包络y的范围减小或压缩函数w=f(y)(其中,向量w给出了W的对角线向量)用作逐样本指数f(y)=yp,其中0<p<1。
给定频谱s及其第k个样本sk,通过乘法应用加权,使得xk=wk*sk,其中xk是加权后的频谱x的第k个样本,而wk是加权向量w的第k个样本。通过产生矩阵W可以将相同的操作表示为矩阵运算,矩阵W在对角线上具有加权值,并且该矩阵在所有其它位置处为零。由此得出x=W*s。
尽管可以使用压缩y范围的任何函数,但取幂的好处在于它使得能够在解码器处的包络重新构建中产生简单的解析表达式。
合适的压缩函数f()满足以下要求:
1.压缩函数严格增加,即f(t)<f(t+eps),其中t是任何正标量值,eps是任意小的值,
2.对于任何正标量值(第一标量值t1和第二标量值t2)t1<t2,f(t2)-f(t1)<t2-t1成立。换句话说,减小这两个正标量值之间的距离t2-t1的任何函数都是合适的函数。
除了取幂f(y)=yp(其中p为小指数),在不同的实施例中,压缩函数是对数,即f(y)=log(y)。
在一个实施例中,编码器算法作为编码方法或由编码装置通过以下操作来实现:
1.计算幅度频谱的包络。
2.压缩包络以获得感知加权模型。
3.对频谱应用加权得到x=Ws。
4.量化并发送加权后的频谱sign(Px)。
该算法独立应用于每个传感器节点。
感知加权之后是量化。
因此,本发明由以下两部分组成:
1.使用随机投影和1比特量化对输入信号进行分布式量化,以及
2.隐式发送感知模型。
通过量化随机投影,每个发送的比特对唯一一条信息进行编码,并避免过编码。
在每个传感器节点(例如,包括麦克风)处独立地产生感知模型,并且发送量化后的感知加权信号。感知加权使信号更平坦,但基本形状得以保持。因此,即使根据感知加权信号,也可以在解码器侧反演推出原始包络必然包括什么。
下面讨论分布式量化:
尽管分布式源编码是经过充分研究的主题(例如,[7,8]),并且它已经应用于其它应用(比如,视频[9]),但只有少数人致力于分布式音频编码(例如,[10-13]),然而,他们都没有针对感知和包络模型解决过编码问题。甚至[14]中的可伸缩编码方法也包括利用尺度因子进行包络编码。此外,多描述编码方法仅适用于分组丢失隐藏[15,16]。
它遵循易于实现的量化方案。比较在压缩感测系统[6]中使用的1比特量化方法。
量化器和量化处理的目的是允许在独立传感器处进行量化,从而确保每个发送比特改善质量,而无需在传感器节点之间进行通信。在极端情况下,传感器只能发送一个比特,而这一个比特可以用于改善质量。
所提出的一个实施例的量化方案基于信号频谱的实值表示的随机投影并发送每个维度的符号。
令x为包含输入信号的频谱在内的实值N×1向量,并且令P是其列归一化为单位长度的K×N随机矩阵。然后,通过u=Px来变换x。接下来是对u的每个分量的符号进行量化,即,量化是其可以用K比特无损地发送。
因此,比特流的比特数量定义了随机矩阵的一个维度。
P的样本优选地是伪随机值,这意味着它们看起来像随机值,但实际上是由一些复杂的数学公式或算法产生的。伪随机产生器是每个计算机和每个数学软件库都具有的标准数学工具。相关的是:必须在编码器和接收器/解码器处都知道矩阵P,并且随机数的分布对于P中的所有样本是相同的。
作为x的近似值的重新构建可以通过以下公式容易地计算出来
其中是随机矩阵P的伪逆。
只要在解码器处已知针对P的伪随机列的种子(seed),解码器就可以仅从解码信号。因此,在一个实施例中,伪随机列的种子被给出作为编码信号的辅助信息。伪随机产生器通常产生随机值序列,使得给定序列中的先前值x(k),它产生下一个随机样本,x(k+1)=f(x(k))。也就是说,如果起始点x(1)(称为伪随机序列的“种子”值)是已知的,则可以产生整个序列。因此,在编码侧和解码侧,使用用于产生随机样本的相同函数。
在多个传感器节点的情况下,假设输入信号x是相同信号或相同信号的噪声版本,但是每个传感器具有其自己的随机矩阵Pk。在解码器处,随机矩阵可以被整理成单个大矩阵P=[P1,P2,...],由此等式1保持不变。
众所周知,如果K<<N,那么P近似正交,PTP≈I,并且量化接近最优。
这里,K不一定小于N,由此正交性变得不太精确。使用转置而不是伪逆会降低算法复杂度和编码效率,但不会对我们的感知建模实验强加限制,因为每个发送的比特仍然提高了输出信号的精确度。
可以预期,然后将源模型应用于解码器侧,并且这种模型将提高重新构建的精确度。然而,没有必要实现源模型,因为可以通过发送更多比特来提高精确度来模拟其效果。
图5中示出了系统的实施例的流程图(不包括感知模型)。示出了从一个音频源捕获音频信号的n个麦克风。在所示实施例中,以下编码器装置1是相应麦克风节点或传感器节点的一部分。
通过n个编码装置1的变换器15将n个输入信号3变换成n个频谱s,n个频谱s又被转换成n个感知加权频谱xk=Wksk,这里,这是通过感知加权器(未示出)来完成的。
将n个感知加权频谱xk提交给n个量化器14。
每个量化器14包括随机矩阵应用器16和符号函数计算器17。
随机矩阵应用器16对基于各个感知加权频谱xi(其中i=1,2,...,n)的N×1向量应用随机矩阵Pi,该随机矩阵是维度为K×N的矩阵。N是与频谱x中的样本数量相对应的整数标量。K是与随机化频谱中的行数相对应的整数标量。通过利用符号运算符进行量化,每行用一个比特量化,从而发送的比特数为K。当使用多个编码器(例如,麦克风)时,然后每个编码器具有其自己的大小为Kk×N的矩阵Pk。也就是说,每个编码器向解码器发送Kk个比特,其中比特的数量可以在编码器之间变化。
变换后的频谱由下式给出:ui=Pixi。
符号函数计算器17计算各个变换后的频谱的符号或符号函数:这是对变换后的频谱的K个分量进行的,使得经由发送信道发送K个比特。
图6示出了包括感知加权器10和量化器14在内的一个编码装置1。
通过变换器15将音频信号3变换为频谱sk。感知加权器10对频谱sk应用感知加权矩阵W,以便提供由量化器14量化的感知加权频谱xk。
量化器14包括随机矩阵应用器16,其接收感知加权频谱xk并对其应用随机矩阵Pk以获得Pkxk。通过符号函数计算器17经由计算每个分量的符号函数来量化所得的变换频谱uk的分量。这使得比特流所具有的比特数等于变换后的频谱的分量的数量。由此,通过比特流给出编码后的信号4。
下面讨论对编码后的信号进行解码的方法。
图7示出了用于处理编码后的信号4的解码装置2的实施例。
编码后的信号4是通过解量化器20解量化的比特流的形式。
通过使用随机矩阵P的伪逆对编码后的信号4进行解量化。关于随机矩阵的信息取自编码后的信号4的辅助信息。计算的感知加权频谱由下式给出:
通过感知解加权器21对计算的感知加权频谱进行解加权。通过解变换器22(例如,经由短时傅里叶逆变换STFT-1)将由感知解加权器21提供的计算频谱变换为时间信号,也就是提取的音频信号5。
图8示出了解量化器20从不同的传感器节点(即从不同的麦克风)接收多个编码后的信号4的实施例。各个随机矩阵Pk被整理成单个大矩阵P=[P1,P2,...]。
然后通过下式给出单个计算的感知加权向量:
在备选实施例中,比特流用它们各自的随机矩阵来逆变,然后合并频谱。
如针对图7中所示的实施例所描述的那样处理所获得的计算的感知加权频谱
图9中示出了作为解码装置的一部分的感知解加权器21的实施例。
感知解加权器21从解量化器20接收计算的感知加权频谱其是编码后的信号4的解量化的比特流。
感知解加权器21通过使用迭代算法恢复在输入信号3的编码期间使用的感知加权模型W。这里,Wk是感知加权模型W的第k个近似值或猜测。
该算法以初始猜测提供器23开始。初始猜测提供器23提供感知加权模型W的第0个估计W0。
在所示实施例中,使用包括相应矩阵Wk的对角线元素在内的向量wk。在输入信号的感知加权期间,这种向量与幅度频谱的包络的压缩函数一起使用。
因此,给出向量w0的第0个猜测,并且适当地设置感知加权模型W的第0个近似值W0。
在一个实施例中,通过使用用于计算幅度频谱的包络y的等式来设置近似向量w0的初始猜测。
由此,利用矩阵A和对角线矩阵Λ,初始猜测变为
矩阵A是滤波器组,并且对角线矩阵Λ包含针对所使用的滤波器频带的每个频带的归一化因子。矩阵A的选择是设计选择,通常是提前固定的。在矩阵A不随时间改变的实施例中,它被硬连线到编码器和解码器中。这意味着编码器和解码器都使用相同的已知矩阵A。在不同的实施例中,用于编码的矩阵A作为编码后的信号的一部分被发送。在一个实施例中,在实际通信开始之前,在初始化或配置步骤中发送关于矩阵A的选择。前述内容还涉及对角线矩阵Λ。
初始猜测矩阵W0被提供给频谱近似器24。这也启动了运行索引k被设置为0的实际迭代。
频谱近似器24基于针对感知加权模型W的初始猜测W0的数据w0来计算频谱的近似值。
这是通过对包含计算的感知加权频谱在内的向量应用初始猜测矩阵W0的逆来完成的。
在该步骤中,以k=0通过来对频谱近似。
向模型近似器25提供近似的频谱使得模型近似器25计算针对感知加权模型W的新近似值W1。
这是基于对角线元素的向量wk是频谱的函数的知识。
在一个实施例中,在编码期间用于产生矩阵W的压缩函数f()在解码侧是已知的。如前面关于矩阵A所述,压缩函数f()或者在两侧处设置(例如,在用于编码和解码的相应软件中安装),或者作为编码后的信号的一部分发送。
因此,向量的下一个近似值经由计算,这里,获得下一个近似值W1。
近似值W1返回到频谱近似器24,用于计算下一个近似频谱索引k相应地增加。
此近似值之后用于由等式给出的具有对角线元素的向量来获得感知加权模型W的下一个近似值Wk+1。
重复这一过程直到收敛为止。通常通过将当前输出向量w(k)与先前向量w(k-1)进行比较来检查收敛。如果差||w(k)-w(k-1)||低于某个预设阈值,则迭代已收敛并且可以停止迭代。
最终获得的近似频谱是感知解加权器21的输出,并且是原始输入信号的频谱的近似值。
再次更详细地说明感知模型的重新构建:
在解码器侧,感知信号x的估计值(参见等式1)可以通过来恢复,其中是量化后的感知加权频谱x。这通过解量化器20来完成。
因此,主要任务是根据量化的感知信号来恢复原始信号s的估计值
感知加权频谱x是通过以下等式基于输入信号的频谱经由感知加权模型W而获得的:x=Ws。
目标是估计值等于频谱,即
因此,
此外,给出矩阵W的对角线元素的向量w是输入信号的频谱s的函数:w=f(s)。
因此,利用w的估计值,可以估计从而可以估计w。这可以迭代直到收敛。
因此,这是一种可以如下地描述的期望最大化型算法:
1.通过例如得到w0的初始猜测,并且适当地设置W0。
2.从k=0开始重复直到收敛:
(a)计算
(b)计算并且适当地设置Wk+1。
(c)增加k。
最后的值和Wk是和的最终估计值。
通常,需要少于20次的迭代来收敛。
图5和图6还示出了解码装置2的不同实施例。图5的解码装置2被示出为不具有解加权。在图6中,给出了感知加权模型W的近似值,并且该近似值用于对解量化的频谱进行解加权。这突出了解码包括基于编码后的信号来重新构建模型W。
为了评估所提出的系统的每个部分的性能,进行了以下实验。
对输入音频的三个版本进行了比较:
1)不具有感知建模的量化和重新构建信号,
2)具有感知建模的量化和重新构建信号,由此感知在解码器处是已知的,以及
3)感知量化信号,其中利用根据本发明的盲估计感知模型来执行重新构建。
作为测试材料,使用来自NTT-AT数据集[21]的随机语音样本(参见图10上行)。输入信号被重新采样到12.8kHz,用离散余弦变换来实现STFT以获得实值频谱,根据Mel-尺度使用具有20个分布式的频带的包络模型[20,5]。
作为感知模型的第一近似,使用p=0.5的f(y)=yp的范围减小函数。选择这种感知模型仅仅是为了证明盲重新构建的性能,不应该被视为调谐的最终产品。包络模型的性能以及感知模型已经在图4中示出。
首先,将分别通过下式估计针对在没有盲重新构建的情况下提出的量化的感知SNR(SNRO)和在有盲重新构建的情况下提出的量化的感知SNR(SNRB):
以及
图10示出了针对用不同方法(K=3000)量化的语音文件的感知SNR。
很明显,当感知模型已知时(oracle方法),SNR接近8.4dB。对感知模型进行盲重新构建明显降低了质量(盲),特别是对于浊音音素。然而,在没有感知模型(无感知)情况下系统的SNR比盲恢复情况下差两倍多。
为了进一步量化盲重新构建相对于无感知建模的优势,测量了具有不同比特率K的平均SNR(参见图11)。
盲恢复和无感知模型方法平均比Oracle方法差1.1dB和5.8dB。显然,SNR随着比特率的提高而改善,尽管无感知模型的情况比有感知模型的情况改善慢。此外,随着SNR的增加,盲恢复渐近地接近oracle方法的质量。
最后,为了评估主观质量,通过八个听众和从NTT-AT数据集随机选择的六个项目来进行MUSHRA听力测试。以3千比特/帧来量化信号。这是一个相对较低的数字,因为对于实验没有用源建模,因此输出SNR也相对较低。选择此方案是为了证明存在问题,并且在更高的比特率以及在应用源模型时,性能预计会显著提高。
根据图12中的差分MUSHRA分数,可以看出,对于所有项目,感知建模在利用oracle和盲估计的情况下质量分别平均提高了29.9和22.3点。用学生t检验(Student’s t-test)在p>99%的情况下证实了差异的统计学显着性。
所提出的1比特量化和编码方案(在一个实施例中组合或在单独的实施例中)具有若干感兴趣的结果和特性。
首先,为了分析量化特性,注意P的每列是对向量x的N维空间的1维子空间的投影。
通过对一个投影的符号进行编码,将N维空间分成两部分。通过重复对Px的符号进行编码,N维空间被分成更小的量化单元。由于P是随机矩阵,因此其列彼此近似正交,由此量化单元保持接近最优。
在单个节点系统中,可以设计更有效的量化方法。然而,在分布式系统中,它变得更加复杂,因此需要一种简单的方法来防止节点编码相同的信息,也就是说,必须避免过编码,同时保持低算法复杂度。本发明的量化非常简单,并且提供接近最优的性能。
其次,没有采用源编码方法。
然而,众所周知,这种建模可以用于显著提高编码效率。通过对语音和音频信号的概率分布建模,可以在解码器侧应用源建模(例如[22])。源建模是可能的,因为量化后的信号可以被视为对“真实”信号的噪声观察,由此,通过应用源的先验分布,可以应用最大似然性优化(或类似物)以近似“真实”信号。由于该优化应用于网络或解码器,因此计算负载远离传感器节点,并且传感器节点可以保持低功率。
第三,从隐私角度来看,可以将随机投影方法设计为高效加密。
如果窃听者不知道针对随机矩阵的种子,则数据将看起来完全随机且毫无意义。假设以安全的方式传送随机种子,则只有编码器和预期的接收器可以解密消息。这种方法与例如[12,13]给出的方法相反,[12,13]中节点之间的通信是有意采用的。尽管节点之间的这种协作可以用于改善感知SNR,但是更难以保证隐私。即使假设传感器节点在安全网络上运行,只需一个受损节点就能访问所有通信。相反,在所提出的方法中,如果窃听者获得对一个传感器节点的访问,则它仅仅损害该节点的数据,因为节点可以并且应该使用不同的种子。然而,为了限制传感器节点的发送功率,可以允许节点中继分组,因为分组保持仅由预期接收方可读,并且因此不会损害隐私。
在一个实施例中,本发明的方法基于1比特量化思想,其中在编码器侧,将感知加权的输入信号投影到随机子空间,然后发送每个维度的符号。解码器可以用伪逆或类似方式来逆变量化,以获得量化的感知加权信号。
当我们只能访问感知加权信号时,所提出方法的主要部分是对原始信号的估计进行重新构建。该方法基于估计最大化(EM)算法,其中其在估计感知模型和原始信号之间迭代地交替。
因此,所提出的分布式语音和音频编码算法是用于物联网的应用的可行方法。它针对任意数量的传感器节点和功耗水平提供可伸缩的性能。此外,该算法在设计上是安全的,因为通过随机种子的加密通信可以保证通信信道的隐私。
本发明至少包括以下特征、方面以及明显的应用和扩展。因此,列表涉及不同的实施例,并且允许所提到的特征的不同组合。
1.具有一个或若干个编码器的分布式语音和音频编码系统,其可以在具有有限发送和计算能力的可伸缩、灵活、低功率和低成本处理器上和其它资源上实现。
1.1.分布式编码器可以被配置为对信息进行编码,使得来自每个编码器节点的信息可以被独立地量化,使得可以例如通过以下方法来最大化来自节点集合的信息量:
1.1.1.使每个编码器节点与其它节点正交或近似正交地编码信息,
1.1.2.使用随机量化算法,其可以或可以不与其它节点正交或近似正交,
1.1.3.使用熵编码方法来压缩量化信息。
1.2.分布式编码器可以被配置为在感知域中编码信息,这近似于人类听觉系统的感知精确度。
1.2.1.其中,到感知域的变换可以被设计为是可逆的,使得编码器节点可以(盲)恢复感知模型,而无需显式地发送感知模型,
1.2.2.其中,可以从一些或所有编码器节点显式地发送感知模型的一些或所有参数来作为辅助信息。
1.2.3.其中,可以使用包络模型来描述感知模型,例如线性预测模型、滤波器组、矩阵变换、或尺度因子频带(分段常数或内插),并且它们可以被实现为矩阵运算或滤波运算。
1.2.4.其中,感知模型可以具有恒定的和自适应的部分,其中,恒定部分始终相同,自适应部分取决于输入信号和/或系统配置和/或可用资源(硬件、计算、发送、电池容量等)的量。
1.3.分布式编码器可以被配置为对信息进行编码,使得量化误差在感知域中最小化,例如,像CELP型编解码器中的合成分析循环。
1.4.分布式编码器可以被配置为通过例如以下方法使用加密对信息进行编码,以防止被窃听:
1.4.1.在进行发送之前,使用作为算法或基于查表的方法,加密最终或中间信号描述,
1.4.2.使用量化以及随机化,例如随机变换或投影,其中随机化通过算法或具有已知种子值(起始点)的查表来实现。
1.5.分布式编码器,其配置可以是灵活的,并且可以在线修改,例如,
1.5.1.基于音频源(例如,人类演讲者)、传感器节点的位置和移动、以及资源的可用性,传感器节点可以独立地或共同地决定哪些节点是活动的还是非活动的,
1.5.2.基于音频源(例如,人类演讲者)、传感器节点的位置和移动、以及资源的可用性,传感器节点可以独立地或共同地决定对资源分配进行调整,例如使得具有在演讲者附近的麦克风的传感器节点使用的资源比具有远离演讲者的麦克风的传感器节点使用的资源更多。
1.6.所提出的系统的特殊情况是当仅存在单个编码器时,系统减少以遵循语音和音频编解码器的经典架构。然而,重要的是,本发明的感知模型方面的随机量化和盲恢复也可以用于经典编码器和解码器设计中,例如为了编码效率的好处、获得低复杂度编码器、以及加密通信。
2.分布式语音和音频编码系统,其中来自编码器的输入在(使用网络内处理方法的)一个或若干个网络节点处或在一个或若干个解码器/接收器节点处合并。
2.1解码器或处理单元可以被配置为例如通过以下方式来逆变量化:
2.1.1.精确逆变换、伪逆、或近似逆(比如,随机矩阵的转置),
2.1.2.通过优化方法(例如,压缩感应)来估计输入信号,
2.1.3.来自节点的比特流uk(k∈[1,2,...,n])可以通过诸如的联合逆变来合并,或者比特流可以首先被逆变之后仅进行合并。后者的好处在于:我们可以在每个节点上单独或联合地应用建模,例如感知、源、空间和传感器模型。
2.2.解码器或处理单元可以被配置为通过使用发送的辅助信息和/或通过例如通过如下方法根据重新构建的(感知)信号来盲估计感知模型来逆变感知模型:
2.2.1.直接方法,其中感知模型直接从量化信号中获得,
2.2.2.迭代方法,其中感知模型的估计通过迭代连续改善。
2.3.解码器或处理单元可以被配置为使用源和传感器节点模型来改善解码信号的质量。
2.3.1.通过对源信号和传感器节点的统计特性建模,我们可以在给定信号和/或源的先验分布的情况下优化观察的似然性(量化信号)。
2.3.1.1.建模的源特征可以包括一个或若干个频谱包络模型(线性预测模型、分布量化、尺度因子等)、谐波模型(梳状滤波器、长时间预测器等)、时间包络(线性预测模型、分布量化、尺度因素等)、空间包络和空间移动模型。
2.3.1.2.可以使用诸如码本或向量量化的查表、或者使用诸如物理(语音产生等)、感知(掩蔽模型、临界频带等)或统计模型(单变量或多变量概率分布)的参数模型来建模特征。
2.3.1.3.这些特征可以描述源的声学和空间特征,但也可以描述传感器节点的特征,例如信号质量(例如,高或低SNR)和空间特征(例如静止、移动、可穿戴等)。
2.3.2.通过确定输出信号的感知烦扰的失真,我们可以通过例如后滤波方法来修改输出信号。
2.4.解码器或处理单元可以被配置为使用信号增强方法,例如噪声衰减、波束成形和源分离方法,以增强信号质量。
2.4.1.可以采用诸如波束成形的多麦克风方法来利用传感器的空间配置来提取空间分离的声源和关于房间声学的其它信息。重要的是,多麦克风方法通常可以包括延迟估计和/或互相关估计。
2.4.2.噪声衰减方法可以用于抑制不期望的源,例如背景噪声。
2.4.3.源分离方法可以用于将若干种声源区分开来。
3.分布式语音和音频编码系统,其中信号信息的信息可以由系统中的一些设备/节点发送、中继和处理。
3.1.传感器节点(具有传感器的设备)接收原始信号,并且可以被配置为对信号进行编码(量化和编码),或以原始格式发送。
3.2.能够访问原始信号的任何节点(通常是传感器节点)都可以对信号进行编码并进行发送。
3.3.任何节点可以被配置为中继来自其它节点的信息。
3.4.能够访问编码信号(和可选的加密-解码信息)的任何节点(通常是接收器节点)可以被配置为对信号进行解码。
3.5.中间节点(例如,解码器侧的服务器设备)可以被配置为将来自可用流的信息合并成一个或若干个流。组合流可以表示例如原始声学表示(比如,音乐表演)或单独声音源(比如,电话会议中的各个听筒)。组合流可以通过扬声器进一步再现、存储、发送等,或者由相同或一些其它语音和音频编码工具进行编码。
3.6.网络配置可以被配置为是静态或动态的,以便例如优化以下准则中的一个或若干个;音质、资源分配、安全/隐私。
4.展望的应用至少包括:
4.1.电话应用,其中一些支持设备用于拾取期望的语音和音频信号。
4.1.1.在家庭和办公室应用,其中一些支持设备用于拾取期望的语音和音频信号,并且向一个或若干个远程位置发送。
4.1.2.电话会议应用,其中一些支持设备用于拾取期望的语音和音频信号,并且向一个或若干个远程位置发送。
4.1.3.汽车电话系统,其中汽车中的固定麦克风和/或汽车内的支持设备用于拾取期望的语音和音频信号,并且向一个或若干个远程位置发送。
4.2.游戏和虚拟/增强现实应用,其中一个玩家的声音场景被发送到其它玩家或服务器。
4.3.音乐会、表演、舞台、歌剧、演示、体育和其它活动制作应用,其中表演者、演奏者、观众或整体声音场景的声音用分布式语音和音频编码系统记录或发送。
4.3.1该应用可以被设计为低延迟或超低延迟,以实现交互和/或同时回放和放大。
4.3.2该应用可以被设计为允许表演者之间、观众内部、或所有参与者之间的互动。
4.4.安全和安全应用,其中监视声音场景以检测危险事件(例如,体育场的恐慌)、家中发生的事故(例如,老人跌倒)等。
4.5.多媒体应用,其中语音和音频信号与视频和/或其它媒体相结合。
尽管已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(比如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
本发明的经发送或编码的信号可以存储在数字存储介质上或可以在诸如无线发送介质或有线发送介质(比如互联网)的发送介质上发送。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、Blu-Ray、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案,所述控制信号与可编程计算机系统合作(或能够与之合作),使得执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,程序代码可操作用于在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其它实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质),包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收器(例如,以电子方式或以光学方式)发送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。
参考文献
[1]TS 26.445,EVS Codec Detailed Algorithmic Description;3GPPTechnical Specihcation(Release 12),3GPP,2014。
[2]TS 26.190,Adaptive Multi-Rate(AMR-WB)speech codec,3GPP,2007。
[3]ISO/IEC 23003-3:2012,“MPEG-D(MPEG audio technologies),Part 3:Unified speech and audio coding,”2012。
[4]M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs和M.Dietz,“ISO/IEC MPEG-2 advanced audio coding,”Journal of the Audioengineering society,vol.45,no.10,pp.789-814,1997。
[5]M.Bosi和R.E.Goldberg,Introduction to Digital Audio Coding andStandards.Dordrecht,The Netherlands:Kluwer Academic Publishers,2003。
[6]P.T.Boufounos和R.G.Baraniuk,“1-bit compressive sensing,”inInformation Sciences and Systems,2008.CISS 2008.42nd Annual Conferenceon.IEEE,2008,pp.16-21。
[7]Z.Xiong,A.D.Liveris和S.Cheng,“Distributed source coding for sensornetworks,”IEEE Signal Process.Mag.,vol.21,no.5,pp.80-94,2004。
[8]Z.Xiong,A.D.Liveris和Y.Yang,“Distributed source coding,”Handbookon Array Processing and Sensor Networks,pp.609-643,2009。
[9]B.Girod,A.M.Aaron,S.Rane和D.Rebollo-Monedero,“Distributed videocoding,”Proc.IEEE,vol.93,no.1,pp.71-83,2005。
[10]A.Majumdar,K.Ramchandran和L.Kozintsev,“Distributed coding forwireless audio sensors,”in Applications of Signal Processing to Audio andAcoustics,2003 IEEE Workshop on.IEEE,2003,pp.209-212。
[11]H.Dong,J.Lu和Y.Sun,“Distributed audio coding in wireless sensornetworks,”in Computational Intelligence and Security,2006 InternationalConference on,vol.2.IEEE,2006,pp.1695-1699。
[12]A.Zahedi,J.S.H.Jensen,P.Naylor和S.Bech,“Coding andenhancement in wireless acoustic sensor networks,”in Data CompressionConference(DCC),2015.IEEE,2015,pp.293-302。
[13]A.Zahedi,J.S.H.Jensen,S.Bech和P.Naylor,“Audio codingin wireless acoustic sensor networks,”Signal Processing,vol.107,pp.141-152,2015。
[14]US 7,835,904。
[15]G.Kubin和W.B.Kleijn,“Multiple-description coding(MDC)of speechwith an invertible auditory model,”in Speech Coding,IEEE Workshop on,1999,pp.81-83。
[16]V.K.Goyal,“Multiple description coding:Compression meets thenetwork,”IEEE Signal Process.Mag.,vol.18,no.5,pp.7493,2001。
[17]J.O.Smith III和J.SAbel,“Bark and ERB bilinear transforms,”IEEETrans.Speech Audio Process.,vol.7,no.6,pp.697-708,1999。
[18]T.“Vandermonde factorization of Toeplitz matrices andapplications in filtering and warping,”IEEE Trans.Signal Process.,vol.61,no.24,pp.6257-6263,2013。
[19]F.Zheng,G.Zhang和Z.Song,“Comparison of different implementationsof MFCC,”Journal of Computer Science and Technology,vol.16,no.6,pp.582-589,2001。
[20]H.Fastl和E.Zwicker,Psychoacoustics:Facts and models.Springer,2006,vol.22。
[21]NTT-AT,“Super wideband stereo speech database,”http://www.ntt-at.com/product/widebandspeech,访问时间:09.09.2014[在线]。可从:http://www.ntt-at.com/product/widebandspeech获取。
[22]SKorse,T.和T.“Entropy coding of spectralenvelopes for speech and audio coding using distribution quantization,”inProc.Interspeech,2016。
Claims (15)
1.一种用于处理输入信号(3)的编码装置(1),
包括感知加权器(10)和量化器(14),
其中,所述感知加权器(10)包括模型提供器(12)和模型应用器(13),
其中,所述模型提供器(12)被配置用于基于所述输入信号(3)提供感知加权模型(W),
其中,所述模型应用器(13)被配置用于通过对基于所述输入信号(3)的频谱(s)应用所述感知加权模型,来提供感知加权频谱(x),
其中,所述量化器(14)被配置为量化所述感知加权频谱(x)并提供比特流
其中,所述量化器(14)包括随机矩阵应用器(16)和符号函数计算器(17),
其中,所述随机矩阵应用器(16)被配置用于对所述感知加权频谱(x)应用随机矩阵(P),以便提供变换后的频谱(u),以及
其中,所述符号函数计算器(17)被配置用于计算变换后的频谱(u)的分量的符号函数,以便提供比特流
2.根据权利要求1所述的编码装置(1),
其中,所述模型提供器(12)被配置用于基于对基于所述输入信号(3)的频谱(s)的压缩来提供所述感知加权模型(W)。
3.根据权利要求1所述的编码装置(1),
其中,所述感知加权器(10)包括包络计算器(11),
其中,所述包络计算器(11)被配置用于提供基于所述输入信号(3)的幅度频谱(|x|)的包络(y),以及
其中,所述模型提供器(12)被配置用于基于所述包络(y)的压缩来提供所述感知加权模型(W)。
4.根据权利要求1所述的编码装置(1),
其中,所述模型提供器(12)被配置用于计算压缩函数(f()),所述压缩函数描述对基于所述输入信号(3)的频谱(s)的压缩、或者对基于所述输入信号(3)的幅度频谱(|x|)的包络(y)的压缩,以及
其中,所述模型提供器(12)被配置用于基于所述压缩函数(f())来计算所述感知加权模型(W)。
5.根据权利要求4所述的编码装置(1),
其中,所述压缩函数(f())是严格增加的,
其中,对于任何正标量值(t)和任意小的值(eps),针对正标量值(t)的函数值(f(t))小于针对所述正标量值(t)和所述任意小的值(eps)之和(t+eps)的函数值(f(t+eps)),以及
其中,对于第一正标量值(t1)和大于所述第一正标量值(t1)的第二正标量值(t2),针对所述第二正标量值的函数值(f(t2))与针对所述第一正标量值(t1)的函数值(f(t1))之间的差小于所述第二正标量值(t2)和所述第一正标量值(t1)之间的差。
6.一种用于处理编码后的信号(4)的解码装置(2),
包括解量化器(20)和感知解加权器(21),
其中,所述解量化器(20)被配置为对所述编码后的信号(4)包括的比特流进行解量化,并用于提供计算的感知加权频谱
其中,所述解量化器(20)被配置为通过对所述比特流应用随机矩阵(P)的伪逆来解量化所述比特流
其中,所述感知解加权器(21)包括频谱近似器(24)和模型近似器(25),
其中,所述频谱近似器(24)被配置用于基于所述计算的感知加权频谱来计算频谱的近似值以及
其中,所述模型近似器(25)被配置用于基于所述频谱的近似值来计算与所述编码后的信号(4)相关联的感知加权模型(W)的近似值(Wk)。
7.根据权利要求6所述的解码装置(2),
其中,所述感知解加权器(21)包括初始猜测提供器(23),
其中,所述初始猜测提供器(23)被配置用于提供针对所述感知加权模型(W)的初始猜测的数据(w0),以及
其中,所述频谱近似器(24)被配置用于基于所述编码后的信号(4)和所述感知加权模型(W)的所述初始猜测(W0)或近似值(Wk)来计算所述频谱的近似值
8.根据权利要求6所述的解码装置(2),
其中,所述解量化器(20)被配置为基于所述编码后的信号(3)所包括的与随机矩阵(P)有关的辅助信息来对所述比特流进行解量化。
9.根据权利要求6所述的解码装置(2),
其中,所述解量化器(20)被配置为接收多个比特流并且基于所述多个比特流来提供计算的感知加权频谱
10.根据权利要求6所述的解码装置(2),
其中,所述解码装置(2)被配置为应用源建模。
11.一种用于处理输入信号(3)的方法,
包括:
基于所述输入信号(3)提供感知加权模型(W),
通过对所述输入信号(3)的频谱(s)应用所述感知加权模型(W)来加权所述输入信号(3)的所述频谱(s),以及
通过计算加权频谱(x)的随机投影的符号函数来量化所述加权频谱(x),
其中,所述方法还包括:
通过对所述加权频谱(x)应用随机矩阵(P)来获得所述加权频谱(x)的随机投影,或者
其中,所述提供感知加权模型(W)包括对所述输入信号(3)的幅度频谱(|x|)的包络进行压缩。
12.根据权利要求11所述的方法,
还包括:
通过使用滤波器组(A)和包含针对每个频带的归一化因子的对角线矩阵(Λ)来获得所述包络。
13.一种用于处理编码后的信号(4)的方法,
包括:
通过对所述编码后的信号(4)应用随机矩阵(P)的伪逆来提供量化的感知信号
基于所述量化的感知信号来计算频谱的估计值以及
基于所述频谱的近似值来计算用于提供所述编码后的信号(4)的感知加权模型的近似值(Wk),
使用初始猜测(w0)来提供所述感知加权模型(W)的第0个近似值(W0),以及
基于所述感知加权模型(W)的第0个近似值(W0)来计算所述频谱的第0个估计值。
14.根据权利要求13所述的方法,
还包括:
通过使用滤波器组(A)和包含针对每个频带的归一化因子的对角线矩阵(Λ)来获得所述初始猜测(w0)。
15.一种存储介质,其上存储有计算机程序,当在计算机或处理器上运行时,所述计算机程序用于执行根据权利要求11至14中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16160369.1 | 2016-03-15 | ||
EP16160369 | 2016-03-15 | ||
EP16189893.7 | 2016-09-21 | ||
EP16189893 | 2016-09-21 | ||
PCT/EP2017/055716 WO2017157800A1 (en) | 2016-03-15 | 2017-03-10 | Encoding apparatus for processing an input signal and decoding apparatus for processing an encoded signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109478407A CN109478407A (zh) | 2019-03-15 |
CN109478407B true CN109478407B (zh) | 2023-11-03 |
Family
ID=58265983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780026995.0A Active CN109478407B (zh) | 2016-03-15 | 2017-03-10 | 用于处理输入信号的编码装置和用于处理编码后的信号的解码装置 |
Country Status (12)
Country | Link |
---|---|
US (1) | US10460738B2 (zh) |
JP (1) | JP6799074B2 (zh) |
KR (1) | KR102284104B1 (zh) |
CN (1) | CN109478407B (zh) |
CA (1) | CA3017405C (zh) |
DE (1) | DE102017204244A1 (zh) |
ES (1) | ES2698119B2 (zh) |
FR (1) | FR3049084B1 (zh) |
GB (1) | GB2550459B (zh) |
MX (1) | MX2018011098A (zh) |
RU (1) | RU2715026C1 (zh) |
WO (1) | WO2017157800A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10531220B2 (en) * | 2016-12-05 | 2020-01-07 | Magic Leap, Inc. | Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems |
KR102025800B1 (ko) * | 2017-11-30 | 2019-09-25 | 광주과학기술원 | 압축 센싱 암호화 시스템 및 그것의 동작 방법 |
CN111194048B (zh) * | 2019-07-01 | 2022-12-06 | 杭州电子科技大学 | 一种基于em的1比特参数估计方法 |
CN110753241B (zh) * | 2019-10-21 | 2021-10-19 | 山东师范大学 | 基于多描述网络的图像编码、解码方法及系统 |
WO2021107941A1 (en) * | 2019-11-27 | 2021-06-03 | Vitalchains Corporation | Method and system for separation of sounds from different sources |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666465A (en) * | 1993-12-10 | 1997-09-09 | Nec Corporation | Speech parameter encoder |
CN1193158A (zh) * | 1996-10-23 | 1998-09-16 | 索尼公司 | 语音编码方法和装置以及声音信号编码方法和装置 |
CN101140758A (zh) * | 2006-09-06 | 2008-03-12 | 华为技术有限公司 | 感知加权滤波方法及感知加权滤波器 |
CN101281749A (zh) * | 2008-05-22 | 2008-10-08 | 上海交通大学 | 可分级的语音和乐音联合编码装置和解码装置 |
EP2573765A2 (en) * | 2008-01-04 | 2013-03-27 | Dolby International AB | Audio encoder and decoder |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
JP3973922B2 (ja) * | 2002-02-15 | 2007-09-12 | 本田技研工業株式会社 | 制御装置 |
ATE482449T1 (de) * | 2005-04-01 | 2010-10-15 | Qualcomm Inc | Verfahren und vorrichtungen zum kodieren und dekodieren eines hochbandteils eines sprachsignals |
EP1953737B1 (en) * | 2005-10-14 | 2012-10-03 | Panasonic Corporation | Transform coder and transform coding method |
US7835904B2 (en) | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
EP2517201B1 (en) * | 2009-12-23 | 2015-11-04 | Nokia Technologies Oy | Sparse audio processing |
EP2595382B1 (en) * | 2011-11-21 | 2019-01-09 | BlackBerry Limited | Methods and devices for encoding and decoding transform domain filters |
-
2017
- 2017-03-09 FR FR1770233A patent/FR3049084B1/fr active Active
- 2017-03-10 ES ES201890056A patent/ES2698119B2/es active Active
- 2017-03-10 CN CN201780026995.0A patent/CN109478407B/zh active Active
- 2017-03-10 CA CA3017405A patent/CA3017405C/en active Active
- 2017-03-10 MX MX2018011098A patent/MX2018011098A/es unknown
- 2017-03-10 RU RU2018136097A patent/RU2715026C1/ru active
- 2017-03-10 KR KR1020187028549A patent/KR102284104B1/ko active Active
- 2017-03-10 JP JP2018548925A patent/JP6799074B2/ja active Active
- 2017-03-10 WO PCT/EP2017/055716 patent/WO2017157800A1/en active Application Filing
- 2017-03-13 GB GB1703949.6A patent/GB2550459B/en active Active
- 2017-03-13 US US15/457,547 patent/US10460738B2/en active Active
- 2017-03-14 DE DE102017204244.3A patent/DE102017204244A1/de active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666465A (en) * | 1993-12-10 | 1997-09-09 | Nec Corporation | Speech parameter encoder |
CN1193158A (zh) * | 1996-10-23 | 1998-09-16 | 索尼公司 | 语音编码方法和装置以及声音信号编码方法和装置 |
CN101140758A (zh) * | 2006-09-06 | 2008-03-12 | 华为技术有限公司 | 感知加权滤波方法及感知加权滤波器 |
EP2573765A2 (en) * | 2008-01-04 | 2013-03-27 | Dolby International AB | Audio encoder and decoder |
CN101281749A (zh) * | 2008-05-22 | 2008-10-08 | 上海交通大学 | 可分级的语音和乐音联合编码装置和解码装置 |
Non-Patent Citations (3)
Title |
---|
Detection and identification of sparse audio tampering using distributed source coding and compressive sensing techniques;Giogio Prandi,et al.;《the 11th int.,Conference on digital audio effects》;20080901;全文 * |
Performance of perceptual 1-bit compressed sensing for audio compression;Hossam M.Kasem,et al.;《2015 IEEE Symposium on Computers and Communication》;IEEE;20160215;第477-482页 * |
低码率语音编码中感知加权滤波器的一种新型算法;李文广等;《上海交通大学学报》;中国知网;19980630(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
GB2550459B (en) | 2021-11-17 |
FR3049084B1 (fr) | 2022-11-11 |
GB201703949D0 (en) | 2017-04-26 |
MX2018011098A (es) | 2019-01-10 |
DE102017204244A1 (de) | 2017-09-21 |
KR20180125982A (ko) | 2018-11-26 |
US10460738B2 (en) | 2019-10-29 |
ES2698119A2 (es) | 2019-01-31 |
ES2698119R1 (es) | 2019-02-07 |
CA3017405A1 (en) | 2017-09-21 |
US20170270941A1 (en) | 2017-09-21 |
JP6799074B2 (ja) | 2020-12-09 |
WO2017157800A1 (en) | 2017-09-21 |
FR3049084A1 (zh) | 2017-09-22 |
CA3017405C (en) | 2021-09-28 |
RU2715026C1 (ru) | 2020-02-21 |
CN109478407A (zh) | 2019-03-15 |
JP2019512739A (ja) | 2019-05-16 |
ES2698119B2 (es) | 2020-01-30 |
GB2550459A (en) | 2017-11-22 |
KR102284104B1 (ko) | 2021-08-02 |
BR112018068737A2 (pt) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108885877B (zh) | 用于估计声道间时间差的设备及方法 | |
CN109478407B (zh) | 用于处理输入信号的编码装置和用于处理编码后的信号的解码装置 | |
US8964994B2 (en) | Encoding of multichannel digital audio signals | |
JP5302980B2 (ja) | 複数の入力データストリームのミキシングのための装置 | |
RU2439718C1 (ru) | Способ и устройство для обработки звукового сигнала | |
JP2018116283A (ja) | パケット損失補償装置およびパケット損失補償方法、ならびに音声処理システム | |
TWI657434B (zh) | 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置 | |
KR20210102300A (ko) | 낮은 차수, 중간 차수 및 높은 차수 컴포넌트 생성기를 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 | |
WO2010016270A1 (ja) | 量子化装置、符号化装置、量子化方法及び符号化方法 | |
Yang et al. | High-fidelity multichannel audio coding with Karhunen-Loeve transform | |
Bäckström et al. | Blind Recovery of Perceptual Models in Distributed Speech and Audio Coding. | |
JPWO2008132850A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
EP3544005B1 (en) | Audio coding with dithered quantization | |
JPWO2006041055A1 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
JP2017523453A (ja) | 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置 | |
Bäckström et al. | Fast randomization for distributed low-bitrate coding of speech and audio | |
TWI762949B (zh) | 用於丟失消隱之方法、用於解碼Dirac經編碼音訊場景之方法及對應電腦程式、丟失消隱設備及解碼器 | |
JP2007187749A (ja) | マルチチャンネル符号化における頭部伝達関数をサポートするための新装置 | |
KR20070090217A (ko) | 스케일러블 부호화 장치 및 스케일러블 부호화 방법 | |
BR112018068737B1 (pt) | Aparelho de codificação para processar um sinal de entrada, aparelho de decodificação para processar um sinal codificado, método paracodificar um sinal de entrada, método para processar a decodificação de umsinal codificado, método de codificação para processar um sinal de entrada,método de decodificação para processar um sinal codificado e portadora de dados | |
CN113345448B (zh) | 一种基于独立成分分析的hoa信号压缩方法 | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 | |
Hirvonen et al. | Compression of Higher Order Ambisonics with Multichannel RVQGAN | |
EP3252763A1 (en) | Low-delay audio coding | |
KR20090030085A (ko) | 메모리 관리 방법 및 메모리 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment | ||
TG01 | Patent term adjustment |