CN102308333B - 修改的离散余弦变换音频编码器的带宽扩展方法和装置 - Google Patents
修改的离散余弦变换音频编码器的带宽扩展方法和装置 Download PDFInfo
- Publication number
- CN102308333B CN102308333B CN201080006565.0A CN201080006565A CN102308333B CN 102308333 B CN102308333 B CN 102308333B CN 201080006565 A CN201080006565 A CN 201080006565A CN 102308333 B CN102308333 B CN 102308333B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- band
- transition
- adjacent frequency
- excitation spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
一种方法包括针对具有第一频率带内的谱的信号限定过渡频带,其中,过渡频带被限定为第一频率带的一部分,并且位于邻近第一频率带的邻近频率带近旁。该方法:分析过渡频带,以获得过渡频带谱包络和过渡频带激励谱;估计邻近频率带谱包络;通过以信号的基音频率确定的重复周期,周期性地重复至少一部分过渡频带激励谱,来生成邻近频率带激励谱;以及组合邻近频率带谱包络和邻近频率带激励谱,以获得邻近频率带信号谱。还公开了用于执行该方法的信号处理逻辑。
Description
相关申请的交叉引用
本公开涉及:于2007年11月29日提交的美国专利申请No.11/946,978,代理机构卷号:CML04909EV,题目为METHOD ANDAPPARATUS TO FACILITATE PROVISION AND USE OF ANENERGY VALUE TO DETERMINE A SPECTRAL ENVELOPE SHAPEFOR OUT-OF-SIGNAL BANDWIDTH CONTENT;于2008年2月1日提交的美国专利申请No.12/024,620,代理机构卷号为:CML04911EV,题目为METHOD AND APPARATUS FOR ESTIMATING HIGH-BANDENERGY IN A BANDWIDTH EXTENSION SYSTEM;于2008年2月7日提交的美国专利申请No.12/027,571,代理机构卷号为:CML06672AUD,题目为METHOD AND APPARATUS FORESTIMATING HIGH-BAND ENERGY IN A BANDWIDTHEXTENSION SYSTEM;其全部内容通过引用合并于此。
技术领域
本公开涉及音频编码器,并且提供可听内容,更具体地,涉及用于音频编码器的带宽扩展技术。
背景技术
移动电话上的电话语音通常仅利用可听音频谱的一部分,例如,300至3400Hz音频谱内的窄带语音。与正常语音相比,这种窄带语音具有含混质量和降低的可懂度。因而,扩展语音编码器的输出的带宽的多种方法,被称为“带宽扩展”或“BWE”,可以被应用,以人为地改进编码器输出的被感知声音质量。
虽然BWE方案可以是参数的或者非参数的,但是大多数已知BWE方案都是参数的。参数从语音生成的源滤波器模型产生,其中,语音信号被认为是已经通过声道在听觉上过滤的激励源信号。例如使用线性预测(LP)技术计算滤波器系数,可以由全极点滤波器对声道建模。LP系数有效地参数化语音谱包络信息。其他参数方法利用线谱频率(LSF)、梅尔倒谱系数(MFCC)、以及对数谱包络样本(LES)来对语音谱包络建模。
当前的多种语音/音频编码器利用输入信号的修改的离散余弦变换(MDCT)表示,并且因而需要可以应用于基于MDCT的语音/音频编码器的BWE方法。
附图说明
图1是在实施例中使用的具有用于估计高频率带信号谱的高频率带附近的过渡频带的音频信号的示意图。
图2是根据实施例的编码器的基本操作的流程图。
图3是示出根据实施例的编码器的操作的进一步细节的流程图。
图4是采用根据实施例的编码器的通信设备的框图。
图5是根据实施例的编码器的框图。
图6是根据实施例的编码器的框图。
具体实施方式
本公开提供用于编码器中的带宽扩展的方法,并且包括:针对具有第一频率带内的频谱的信号限定过渡频带,其中,该过渡频带被限定为第一频率带的一部分,并且位于邻近第一频率带的邻近频率带近旁。该方法:分析过渡频带,以获得过渡频带谱包络和过渡频带激励谱;估计邻近频率带谱包络;通过以由信号的基音频率(pitch frequency)确定的重复频率,周期性地重复至少一部分过渡频带激励谱,来生成邻近频率带激励谱;以及组合邻近频率带谱包络和邻近频率带激励谱,以获得邻近频率带信号谱。还公开了用于执行该方法的信号处理逻辑。
根据实施例,可以至少使用由对一个频率带,诸如4至7kHz,进行建模的语音或音频编码器生成的量化MDCT系数,来预测对另一频率带,诸如7至14kHz,建模的MDCT系数以实现带宽扩展。
现在转到附图,其中,相同的附图标记表示相同的组件,图1是表示在0到Y kHz的音频谱102上的音频信号101的图100,其不按比例绘制。信号101具有低频率带部分104、以及不被再现为低频率带语音的一部分的高频率带部分105。根据实施例,过渡频带103被选择和利用,以估计高频率带部分105。可以以多种方式获得输入信号。例如,信号101可以是在通信系统的数字无线信道上接收的、被发送至移动站的语音。还可以从例如音频回放设备中的存储器从所存储的音频文件中获得信号101。
图2示出根据实施例的编码器的基本操作。在201,在信号101的第一频率带104内限定过渡频带103。过渡频带103被限定为第一频率带的一部分,并且位于邻近频率带(诸如,高频率带部分105)近旁。在203,分析过渡频带103以获得过渡频带谱数据,并且在205,使用过渡频带谱数据生成邻近频率带信号谱。
图3示出一个实施例的操作的进一步细节。在301中,类似于201地限定过渡频带。在303中,分析过渡频带,以获得过渡频带谱数据,其包括过渡频带谱包络和过渡频带激励谱。在305中,估计邻近频率带谱包络。然后,通过以由输入信号的基音频率确定的重复频率,周期性地重复至少一部分过渡频带激励谱,来生成邻近频率带激励谱,如307中所示。如图309中所示,可以组合邻近频率带谱包络和邻近频率带激励谱,以获得邻近频率带的信号谱。
图4是示出根据实施例的电子设备400的组件的框图。电子设备可以是移动站、膝上型计算机、个人数字助理(PDA)、无线电设备、音频播放器(诸如,MP3播放器)或者任何其他合适设备,其可以经由有线或者无线传输接收音频信号,并且使用在此公开的实施例的方法和装置对音频信号进行解码。电子设备400包括输入部分403,其中,根据实施例,音频信号被提供给信号处理逻辑405。
将理解,图4以及图5和图6是仅用于解释目的,用于向本领域技术人员示出用于做出和使用在此描述的实施例所必需的逻辑。从而,在此的附图不是用于例如实现电子设备所必需的所有组件的完整示意图,而是仅示出便于本领域技术人员理解如何做出和使用在此描述的实施例所必需的那些组件。从而,还将明白,可以利用多种逻辑配置、以及所示的任何内部组件、以及其间的任何对应连接,并且这种配置和对应连接仍然符合在此公开的实施例。
如在此使用的术语“逻辑”包括在一个或多个可编程处理器、ASIC、DSP、硬布线逻辑或其组合上执行的软件和/或固件。从而,根据实施例,任何所描述的逻辑,包括例如信号处理逻辑405,都可以以任何合适方式实现,并且仍然符合在此公开的实施例。
电子设备400可以包括接收器、或收发器、前端部分401和用于接收信号的任何必需的一个或多个天线。从而,接收器401和/或输入逻辑403单独地或以组合的形式包括将适于由信号处理逻辑405进一步处理的合适的音频信号提供给信号处理逻辑405的所有必需逻辑。在一些实施例中,信号处理逻辑405还可以包括一个或多个码本407和查找表409。查找表409可以是谱包络查找表。
图5提供信号处理逻辑405的进一步细节。信号处理逻辑405包括估计和控制逻辑500,其确定表示音频信号的高频率带部分的MDCT系数的集合。逆-MDCT(IMDCT)501用于将信号转换到时域,然后其经由求和运算505与音频信号的低频率带部分503组合,以获得带宽扩展音频信号。然后,带宽扩展音频信号被输出至音频输出逻辑(未示出)。
一些实施例的进一步细节由图6示出,但是所示的一些逻辑可以不、并且不需要出现在所有实施例中。为了解释的目的,以下,低频率带被认为覆盖从50Hz到7kHz的范围(名义上称为宽带语音/音频谱),并且高频率带被认为覆盖从7kHz到14kHz的范围。低频率带和高频率带的组合即,从50Hz到14kHz的范围,名义上被称为超宽带语音/音频谱。清楚地,用于低频率带和高频率带的其他选择是可能的,并且仍然符合实施例。而且,出于说明的目的,作为基线编码器的一部分的输入框403被示出,以提供以下信号:i)解码的宽带语音/音频信号Swb,ii)至少与过渡频带对应的MDCT系数,以及iii)基音频率606或对应的基音周期/延迟。在一些实施例中,输入框403可以仅提供解码的宽带语音/音频信号,并且在这种情况下,其他信号可以在解码器处从其推导得到。如图6所示,在601中从输入框403选择量化的MDCT系数的集合,以表示过渡频带。例如,4到7kHz的频率带可以被用作过渡频带;然而,可以使用其他频谱部分,并且仍符合实施例。
接下来,使用所选过渡频带MDCT系数以及从解码的宽带语音/音频(例如,达到7kHz)计算的所选参数,生成一个集合的估计的MDCT系数,以指定邻近频率带,例如7-14kHz,中的信号内容。从而,所选过渡频带MDCT系数被提供给过渡频带分析逻辑603和过渡频带能量估计器615。通过过渡频带能量估计器逻辑615计算表示过渡频带的量化MDCT系数中的能量。过渡频带能量估计器逻辑615的输出是与解码的宽带语音/音频信号的过渡频带中的能量虽然不相同但非常接近的能量值。
在615中确定的能量值被输入到高频率带能量预测器611中,其是计算对邻近频率带,例如,7-14kHz的频率带,进行建模的MDCT系数的能量的非线性能量预测器。在一些实施例中,为了改进高频率带能量预测器611性能,高频率带能量预测器611可以使用由过零点计算器619计算的解码的语音的过零点,结合由过渡频带形状估计器609确定的过渡频带谱部分的谱包络形状。根据过零点值和过渡频带形状,使用不同的非线性预测器,从而导致增强的预测器性能。在设计预测器时,大的训练数据库首先基于过零点值和过渡频带形状被分为多个分区,并且对于这样生成的每个分区,计算独立的预测器系数。
特别地,可以使用量化帧过零点的8-级标量量化器来量化过零点计算器619的输出,并且同样地,过渡频带形状估计器609可以是对谱包络形状分级的8-形状谱包络矢量量化器(VQ)。从而,在每帧最多提供64(即,8×8)个非线性预测器,并且在该帧采用与所选分区对应的预测器。在多数实施例中,使用少于64个预测器,这是因为64个分区中的一些没有被从训练数据库中分配足够数量的帧来保证它们的内含物,并且这些分区可能随后与邻近分区合并。根据实施例,在低能量帧上训练的独立能量预测器(未示出)可以用于这种低能量帧。
为了计算与过渡频带(4-7kHz)对应的谱包络,表示该频率带中的信号的MDCT系数首先在框603中由绝对值运算符处理。接下来,处理后的为零值的MDCT系数被识别,并且归零的幅度被下述值替代:该值通过在边界非零值MDCT幅度之间的线性内插而获得,在应用线性内插运算符之前已经按比例缩小了(例如,按系数5)边界非零值MDCT幅度。上述零值MDCT系数的消除减小了MDCT幅度谱的动态范围,并且改善了从修改后的MDCT系数计算的谱包络的建模效率。
然后,修改后的MDCT系数经由20*log10(x)运算符(未示出)被转换到dB域。在从7到8kHz的频率带内,dB谱通过相对于与7kHz对应的频率索引进行的谱折叠(folding)获得,以进一步减小将被计算用于4-7kHz频率带的谱包络的动态范围。接下来将逆离散傅立叶变换(IDFT)应用至dB谱,从而构建4-8kHz频率带,以计算前8个(伪)倒谱系数。然后,dB谱包络通过对倒谱系数执行离散傅立叶变换(DFT)运算来计算。
以两种方式来使用得到的过渡频带MDCT谱包络。首先,形成到过渡频带谱包络矢量量化器的输入,即到过渡频带形状估计器609的输入,其返回与输入谱包络最接近的预存储谱包络(八个中的一个)的索引。该索引以及由从解码的语音计算的过零点的标量量化器返回的索引(八个中的一个)被用于选择最多64个非线性能量预测器中的一个,如先前详细描述的。其次,所计算的谱包络被用于平坦化过渡频带MDCT系数的谱包络。可以这样做的一种方式是将每个过渡频带MDCT系数除以其对应的谱包络值。还可以在对数域中实现平坦化,在这种情况下,除法运算被减法运算代替。在后者的实施方式中,MDCT系数符号(或极性)被保留用于随后恢复,这是因为到对数域的转换要求正值输入。在实施例中,在对数域中实现平坦化。
然后,由框603输出的平坦化的过渡频带MDCT系数(表示过渡频带MDCT激励谱)被用于生成在7-14kHz的频率带中对激励信号建模的MDCT系数。在一个实施例中,假设在32kHz采样下的初始MDCT索引是0和20ms帧大小,与过渡频带对应的MDCT索引的范围可以是160到279。给出平坦化的过渡频带MDCT系数,使用以下映射,生成表示与7-14kHz频率带对应的索引280到559的激励的MDCT系数:
MDCTexc(i)=MDCTexc(i-D),i=280,...,559,D<=120.
对于给定帧,根据20ms帧的最后子帧,其是核心编解码器发送的信息的一部分,的长期预测器(LTP)延迟的值计算频率延迟D的值。根据该解码的LTP延迟,计算该帧的估计的基音频率值,并且识别该基音频率值的最大整数倍,以产生小于或等于120的对应的整数频率延迟值D(在MDCT索引域中被限定)。该方法确保平坦化的过渡频带MDCT信息的重新使用,从而保护4-7kHz频率带中的MDCT系数和针对7-14kHz频率带估计的MDCT系数之间的谐波关系。可替换地,从白噪声序列输入计算的MDCT系数可以用于在7-14kHz频率带中形成平坦化的MDCT系数的估计。任一种方式,表示7-14kHz频率带中的激励信息的MDCT系数的估计都通过高频率带激励生成器605形成。
由非线性能量预测器输出的7-14kHz频率带中的MDCT系数的预测能量值可以基于解码的宽带信号特性被能量适配器逻辑617调整,以最小化伪迹(artifact)并且提高带宽扩展输出语音的质量。为此目的,能量适配器617接收除了预测的高频率带能量值之外的以下输入:i)来自高频率带能量预测器611的预测误差的标准偏差σ,ii)来自浊化水平(voicing level)估计器621的浊化水平v,iii)节首音/爆破音检测器623的输出d,以及iv)稳态/过渡检测器625的输出ss。
给出7-14kHz频率带中的MDCT系数的预测和调整的能量值,与该能量值一致的谱包络选自码本407。这种表征7-14kHz频率带中的MDCT系数的、对谱包络建模、并且根据该频率带中的能量值被分类的谱包络的码本被离线训练。与同预测和调整的能量值最接近的能量级对应的包络由高频率带包络选择器613选择。
所选谱包络由高频率带包络选择器613提供给高频率带MDCT生成器607,并且然后被应用以使对7-14kHz频率带中的平坦化激励进行建模的MDCT系数成形。表示高频率带MDCT谱的与7-14kHz频率带对应的成形的MDCT系数接下来被应用至逆修改余弦变换(IMDCT)501,以形成具有在7-14kHz频率带中的内容的时域信号。然后,该信号通过求和运算505与具有达7kHz的内容,即低频率带部分503,的解码的宽带信号组合,以形成包括达14kHz的信息的带宽扩展信号。
通过一种方法,上述预测和调整的能量值可以用于促进访问包括多个对应候选谱包络形状的查找表409。为了支持这种方法,如果希望,该装置还可以包括在操作中地耦合至信号处理逻辑405的一个或多个查找表409。这样配置,当合适时,信号处理逻辑405可以容易地访问查找表409。
将明白,上述信号处理可以通过与基站无线通信的移动站来执行。例如,基站可以经由传统手段将宽带或窄带数字音频信号发送至移动站。一旦被接收,则移动站内的信号处理逻辑就执行必要操作,以生成对于移动站的用户来说更清楚和听起来更愉悦的数字音频信号的带宽扩展版本。
另外,在一些实施例中,浊化水平估计器621可以与高频率带激励生成器605结合使用。例如,指示清音语音的浊化水平0可以用于确定噪声激励的使用。类似地,指示浊音语音的浊化水平1可以用于确定从上述过渡频带激励推导的高频率带激励的使用。当浊化水平在0和1之间指示混合浊音语音时,多种激励可以在浊化水平确定的合适部分被混合和使用。噪声激励可以是伪随机噪声函数,并且如上所述,可以被认为基于浊化水平填充或修补谱中的空洞。从而,混合高频率带激励适用于浊音、清音和混合浊音的声音。
图6示出估计和控制逻辑550,其包括过渡频带MDCT系数选择器逻辑601、过渡频带分析逻辑603、高频率带激励生成器605、高频率带MDCT系数生成器607、过渡频带形状估计器609、高频率带能量预测器611、高频率带包络选择器613、过渡频带能量估计器615、能量适配器617、过零点计算器619、浊化水平估计器621、节首音/爆破音检测器623、以及SS/过渡检测器625。
输入403提供解码的宽带语音/音频信号Swb、至少与过渡频带对应的MDCT系数、以及每帧的基音频率(或延迟)。过渡频带MDCT选择器逻辑601是基线编码器的一部分,并且将用于过渡频带的MDCT系数的集合提供给过渡频带分析逻辑603和过渡频带能量估计器615。
浊化水平估计:为了估计浊化水平,过零点计算器619可以计算宽带语音Swb的每帧中的过零点zc的数目,如下:
其中,
其中,n是样本索引,并且N是样本中的帧大小。在估计和控制逻辑500中使用的帧大小和百分比重叠是通过基线编码器确定的,例如,在32kHz采样频率和50%重叠处,N=640。如上计算的zc参数的值在0到1的范围内。根据zc参数,浊化水平估计器621可以估计浊化水平v,如下。
其中,ZC低和ZC高分别表示适当选择的低和高阈值,例如,ZC低=0.125并且ZC高=0.30。
为了估计高频率带能量,过渡频带能量估计器615从过渡频带MDCT系数估计过渡频带能量。过渡频带在此被限定为被包括在宽带内并且接近高频率带的频率带,即,其用作到高频率带的过渡,(在该示意性示例中,其为约7000-14000Hz)。计算过渡频带能量Etb的一种方式是对过渡频带内的谱分量,即MDCT系数,的能量求和。
根据过渡频带能量Etb,单位dB(分贝),高频率带能量Ehb0,单位dB,被估计为
Ehb0=αEtb+β
其中,系数α和β被选择以最小化基于来自训练语音/音频数据库的大量帧的高频率带能量的真实和估计值之间的均方差。
估计准确度可以通过使用来自附加语音参数的上下文信息,诸如过零点参数zc和可以由过渡频带形状估计器609提供的过渡频带谱形状被进一步增强。先前所述的过零点参数表示语音浊化水平。过渡频带形状估计器609提供过渡频带包络形状的高分辨率表示。例如,可以使用过渡频带谱包络形状的矢量量化表示(单位dB)。矢量量化器(VQ)码本由从大训练数据库计算的、被称为过渡频带谱包络形状参数tbs的8个形状构成。可以使用zc和tbs参数形成对应zc-tbs参数平面,以实现改进的性能。如先前所述,zc-tbs平面被分为与zc的8个标量量化等级和8个tbs形状对应的64个分区。由于缺乏来自训练数据库的足够的数据点,一些分区可能与附近分区合并。针对zc-tbs平面中的其余分区中的每个,计算独立预测器系数。
高频率带能量预测器611可以通过在估计Ehb0时使用较高的Etb功率来提供估计准确度的附加改进,
在这种情况下,五个不同系数,即,α4,α3,α2,α1和β,被选择用于zc-tbs参数平面的每个分区。由于用于估计Ehb0的以上等式是非线性的,所以当输入信号电平,即能量,改变时,必须特别注意调节估计的高频率带能量。实现它的一种方式是估计输入信号电平,单位dB,调高或调低Etb,以对应于标称信号电平,估计Ehb0,并且调低或调高Ehb0,以对应于实际信号电平。
高频率带能量的估计倾向于错误。由于过高估计导致伪迹,所以所估计的高频率带能量偏向于低了与Ehb0的估计误差的标准偏差成比例的量。即,高频率带能量在能量适配器617中被调整为:
Ehb1=Ehb0-λ·σ
其中,Ehb1是调整后的高频率带能量,单位dB,Ehb0是估计的高频率带能量,单位dB,λ≥0是比例因子,并且σ是估计误差的标准偏差,单位dB。从而,在确定估计的高频率带能量电平之后,估计的高频率带能量电平基于估计的高频率带能量的估计准确度被修改。参考图6,高频率带能量预测器611另外在估计高频率带能量电平时确定不可靠性的度量(measure),并且能量适配器617使估计的高频率带能量电平偏向于低了与不可靠性的度量成比例的量。在一个实施例中,不可靠性的度量包括估计的高频率带能量电平的误差的标准偏差σ。还可以在不脱离实施例的范围的情况下,采用不可靠性的其他度量。
通过使估计的高频率带能量“向下偏(biasing down)”,能量过高估计的可能性(或发生次数)降低,从而降低了伪迹的数目。而且,估计的高频率带能量减少的量与估计有多好成比例-更加可靠的(即,低σ值)估计比不太可靠的估计减少较少的量。虽然设计了高频率带能量预测器611,但是与zc-tbs参数平面的每个分区对应的σ值可以从训练语音数据库计算并且被存储用于在使估计的高频率带能量“向下偏”中随后使用。zc-tbs参数平面的分区(<=64)的σ值例如在约4dB到约8dB的范围内,平均值约为5.9dB。用于该高频率带能量预测器的λ的合适值例如是1.2。
在现有技术方法中,通过使用不对称成本函数来处理高频率带能量的过高估计,该不对称成本函数在高频率带能量预测器611的设计中,比低估的误差更多地处罚高估的误差。与该现有技术方法相比,在此描述的“向下偏”方法具有以下优点:(A)高频率带能量预测器611的设计更简单,这是因为其基于标准对称“均方误差”成本函数;(B)在操作阶段明确地进行“向下偏”(并且在设计阶段不明显地进行),并且从而“向下偏”的量可以容易地按照所想要的被控制;以及(C)“向下偏”的量对估计的可靠性的依赖性是明显的和直接的(代替不明显地取决于在设计阶段期间使用的特定成本函数)。
除了减少由于能量过高估计导致的伪迹之外,上述“向下偏”方法具有用于浊音帧的附加益处--即,在高频率带谱包络形状估计中掩饰任何错误,并且从而减少所得到的“有噪声”伪迹。然而,对于清音帧,如果估计的高频率带能量的减少非常高,则带宽扩展输出语音听起来不再像超宽带语音。为了应对这一点,估计的高频率带能量根据其浊化水平在能量适配器617中被进一步调整为
Ehb2=Ehb1+(1-v)·δ1+v·δ2
其中,Ehb2是浊化水平调整的高频率带能量,单位dB,v是从清音语音的0到浊音语音的1的范围内的浊化水平,并且δ1和δ2(δ1>δ2)是常数,单位dB。δ1和δ2的选择取决于用于“向下偏”的λ的值并且根据经验被确定,以产生最好的声音输出语音。例如,当λ被选择为1.2时,δ1和δ2可以分别被选择为3.0和-3.0。注意,对于λ的值的其他选择可能导致δ1和δ2的不同选择--δ1和δ2的值可以是正的或者负的,或者具有相反符号。用于清音语音的增加的能量电平与宽带输入相比,在带宽扩展输出中强调这种语音,并且还帮助选择对于这种清音段的更合适的谱包络形状。
参考图6,浊化水平估计器621将浊化水平输出至能量适配器617,其通过基于浊化水平进一步修改估计的高频率带能量电平,基于宽带信号特性进一步修改估计的高频率带能量电平。进一步修改可以包括减少用于基本浊音语音的高频率带能量电平和/或增加用于基本清音语音的高频率带能量电平。
虽然能量适配器617之前的高频率带能量预测器611对于大多数帧都工作得非常好,但是偶尔存在高频率带能量大体上被过低或过高估计的帧。从而,一些实施例可以提供这种估计误差,并且使用包括平滑滤波器的能量跟踪平滑器逻辑(未示出)至少部分地校正它们。从而,基于宽带信号特性修改估计的高频率带能量电平的步骤可以包括:平滑估计的高频率带能量电平(其已经基于估计σ和浊化水平v的标准偏差如上述被在先修改),本质上减小了连续帧之间的能量差。
例如,浊化水平调整后的高频率带能量Ehb2可以使用3-点平均滤波器被平滑为
Ehb3=[Ehb2(k-1)+Ehb2(k)+Ehb2(k+1)]/3
其中,Ehb3是平滑后的估计,并且k是帧索引。平滑减小了连续帧之间的能量差,特别是当估计是“异常值”时,即,帧的高频率带能量估计与相邻帧的估计相比太高或太低。从而,平滑帮助减少输出带宽扩展语音中的伪迹的数目。3-点平均滤波器引入一个帧的延迟。有或没有延迟的其他类型滤波器也可以被设计用于平滑能量跟踪。
平滑后的能量值Ehb3可以进一步通过能量适配器617被调整,以获得最终调整后的高频率带能量估计Ehb。该调整可以涉及基于由稳态/过渡检测器625输出的ss参数和/或由节首音/爆破音检测器623的d参数输出减少或增加平滑后的能量值。从而,基于宽带信号特性修改估计的高频率带能量电平的步骤可以包括:基于帧是稳态还是瞬态来修改估计的高频率带能量电平(或者在先修改的估计的高频率带能量电平)的步骤。这可以包括减小用于过渡态帧的高频率带能量电平和/或增加用于稳态帧的高频率带能量电平,并且可以进一步包括基于节首音/爆破音的出现修改估计的高频率带能量电平。通过一种方法,调整高频率带能量值不仅改变了能量电平,而且改变了谱包络形状,这是因为高频率带谱的选择依赖于所估计的能量。
如果帧具有足够能量(即,帧是语音帧并且不是静寂帧),则该帧被限定为稳态帧,并且其在谱的意义上和在能量方面接近其邻近帧中的每个。如果两个帧之间的Itakura距离低于指定阈值,则两个帧可以被认为异常接近。还可以使用其他类型的谱距离度量。如果两个帧的宽带能量的差低于指定阈值,则该两个帧被认为在能量方面接近。不是稳态帧的任何帧都被认为是过渡帧。稳态帧能够在高频率带能量估计中比过渡帧更好地掩饰误差。从而,帧的估计的高频率带能量基于ss参数,即依赖于其是稳态帧(ss=1)还是过渡帧(ss=0),而被调整为
其中,μ2>μ1≥0是根据经验选择的约束,单位dB,以实现良好的输出语音质量。μ1和μ2的值取决于用于“向下偏”的比例常数λ的选择。例如,当λ被选择为1.2时,δ1为3.0并且δ2为-3.0,μ1和μ2可以分别被选择为1.5和6.0。注意,在该示例中,我们稍微增加了用于稳态帧的估计的高频率带能量,并且显著减小了进一步用于过渡帧的估计的高频率带能量。注意,对λ、δ1和δ2的值的其他选择可能导致μ1和μ2的不同选择-μ1和μ2的值可以是正的、或者负的、或者具有相反符号。而且,注意,还可以使用用于识别稳态/过渡帧的其他准则。
基于节首音/爆破音检测器623的输出d,估计的高频率带能量电平可以按以下调节:当d=1时,其指示对应帧包括节首音,例如,从静寂到清音或浊音、或者爆破音的过渡。如果在前帧的宽带能量低于特定阈值并且当前和前帧之间的能量差超过另一阈值,则在当前帧检测节首音/爆破音。在另一实施方式中,当前帧和前帧的过渡频带能量被用于检测节首音/爆破音。还可以采用检测节首音/爆破音的其他方法。节首音/爆破音表示由于以下原因导致的特定问题:A)节首音/爆破音附近的高频率带能量的估计困难;B)由于采用典型的块处理,预回声类型的伪迹可能在输出语音中出现;以及C)爆破音(例如,[p]、[t]、以及[k]),在它们的初始能量爆发之后,在宽带中具有类似于特定齿擦音(例如,[s]、[∫]、和[3])的特性,与高频率带中非常不同,导致能量过高估计和随之发生的伪迹。用于节首音/爆破音(d=1)的高频率带能量调整如下进行:
其中,k是帧索引。对于开始于节首音/爆破音被检测的帧(k=1)的前Kmin个帧,高频率带能量被设置为最低可能值Emin。例如,Emin可以被设置为-∞dB或者具有最低能量的高频率带谱包络形状的能量。对于随后的帧(即,对于由k=Kmin+1到k=Kmax给出的范围),只在帧的浊化水平v(k)超过阈值V1时,才进行能量调整。代替浊化水平参数,具有合适阈值的过零点参数zc也可以用于该目的。只要该范围内的帧的浊化水平小于或等于V1,节首音能量调整就立即停止,即,Ehb(k)被设置为等于Ehb4(k),直到检测到下一个节首音。如果浊化水平v(k)大于V1,则对于k=Kmin+1到k=KT,高频率带能量减小固定量Δ。对于k=KT+1到k=Kmax,高频率带能量通过预先指定的序列ΔT(k-KT)并且在k=Kmax+1处,从Ehb4(k)-Δ朝向Ehb4(k)逐渐增加,Ehb(k)被设置为等于Ehb4(k),并且其继续,直到检测到下一个节首音。用于基于节首音/爆破音的能量调整的参数的典型值例如为Kmin=2,KT=3,Kmax=5,V1=0.9,Δ=-12dB,ΔT(1)=6dB,以及ΔT(2)=9.5dB。对于d=0,不进行能量的进一步调整,即,Ehb被设置为等于Ehb4。从而,基于宽带信号特性修改估计的高频率带能量电平的步骤可以包括:基于节首音/爆破音的发生修改估计的高频率带能量电平(或在先修改的估计的高频率带能量电平)的步骤。
上述估计的高频率带能量的调整帮助最小化带宽扩展输出语音中的伪迹的数目,并且从而提高其质量。虽然用于调整估计的高频率带能量的操作的顺序以特定方式呈现,但是本领域技术人员将认识到,关于顺序的这种独特性并非必要,并且同样地,其他顺序可以使用并且将符合在此公开的实施例。而且,在实施例中,被描述用于修改高频率带能量电平的操作可以选择性地被应用。
从而,在此已经公开了信号处理逻辑和操作方法,用于在约7到14kHz的范围内估计高频率带谱部分,并且确定MDCT系数,使得可以提供具有在高频率带中的谱部分的音频输出。对于本领域普通技术人员来说,等价于在此公开的实施例的其他改变可以发生并且仍然符合由以下权利要求在此限定的实施例的精神和范围。
Claims (19)
1.一种信号的带宽扩展的方法,包括:
针对具有第一频率带内的谱的信号限定过渡频带,所述过渡频带被限定为所述第一频率带的一部分,所述过渡频带位于邻近所述第一频率带的邻近频率带近旁;
分析所述过渡频带,以获得过渡频带谱数据;
分析所述过渡频带谱数据,以获得过渡频带谱包络和过渡频带激励谱;以及
使用所述过渡频带谱数据来生成邻近频率带信号谱,包括:
估计邻近频率带谱包络;
使用所述过渡频带谱数据来生成邻近频率带激励谱;以及
组合所述邻近频带谱包络和所述邻近频率带激励谱,以生成所述邻近频率带信号谱。
2.根据权利要求1所述的方法,其中,使用所述过渡频带谱数据来生成邻近频率带激励谱的步骤进一步包括:
通过以重复周期来周期性地重复至少一部分所述过渡频带激励谱,生成所述邻近频率带激励谱,所述重复周期由所述信号的基音频率确定。
3.根据权利要求1所述的方法,其中,估计邻近频率带谱包络的步骤进一步包括:估计所述邻近频率带中的所述信号的能量。
4.根据权利要求1所述的方法,进一步包括:组合所述第一频率带内的所述谱和所述邻近频率带信号谱,以获得带宽扩展信号谱和对应带宽扩展信号。
5.根据权利要求2所述的方法,其中,生成所述邻近频率带激励谱的步骤进一步包括:混合所述邻近频率带激励谱和所述邻近频率带内的伪噪声激励谱,其中通过周期性地重复至少一部分所述过渡频带激励谱来生成所述邻近频率带激励谱。
6.根据权利要求5所述的方法,进一步包括:使用从所述信号估计的浊化水平来确定用于混合所述邻近频率带激励谱和所述伪噪声激励谱的混合比率。
7.根据权利要求6所述的方法,进一步包括:使用所述伪噪声激励谱来填充由于所述过渡频带激励谱中的对应空洞导致的所述邻近频率带激励谱中的任何空洞。
8.一种用于信号的带宽扩展的方法,包括:
针对具有第一频率带内的谱的信号限定过渡频带,所述过渡频带被限定为所述第一频率带的一部分,所述过渡频带位于邻近所述第一频率带的邻近频率带近旁;
分析所述过渡频带,以获得过渡频带谱包络和过渡频带激励谱;
估计邻近频率带谱包络;
通过以重复周期来周期性地重复至少一部分所述过渡频带激励谱,生成邻近频率带激励谱,其中所述重复周期由所述信号的基音频率确定;以及
组合所述邻近频率带谱包络和所述邻近频率带激励谱,以获得邻近频率带信号谱。
9.根据权利要求8所述的方法,其中,估计邻近频率带谱包络的步骤进一步包括:估计所述邻近频率带中的所述信号的能量。
10.根据权利要求9所述的方法,进一步包括:组合所述第一频率带内的所述谱和所述邻近频率带信号谱,以获得带宽扩展信号谱和对应带宽扩展信号。
11.根据权利要求10所述的方法,其中,生成所述邻近频率带激励谱的步骤进一步包括:混合所述邻近频率带激励谱和所述邻近频率带内的伪噪声激励谱,其中通过周期性地重复至少一部分所述过渡频带激励谱来生成所述邻近频率带激励谱。
12.根据权利要求9所述的方法,进一步包括:使用从所述信号估计的浊化水平来确定用于混合所述邻近频率带激励谱和所述伪噪声激励谱的混合比率。
13.根据权利要求9所述的方法,进一步包括:使用所述伪噪声激励谱来填充由于所述过渡频带激励谱中的对应空洞导致的所述邻近频率带激励谱中的任何空洞。
14.一种用于信号的带宽扩展的设备,包括:
用于针对具有第一频率带内的谱的信号限定过渡频带,所述过渡频带被限定为所述第一频率带的一部分的装置,所述过渡频带位于邻近所述第一频率带的邻近频率带近旁;
用于分析所述过渡频带,以获得过渡频带谱包络和过渡频带激励谱的装置;
用于估计邻近频率带谱包络的装置;
用于通过以重复周期来周期性地重复至少一部分所述过渡频带激励谱,生成邻近频率带激励谱的装置,其中所述重复周期由所述信号的基音频率确定;以及
用于组合所述邻近频率带谱包络和所述邻近频率带激励谱,以获得邻近频率带信号谱的装置。
15.根据权利要求14所述的设备,进一步包括:用于估计所述邻近频率带内的所述信号的能量的装置。
16.根据权利要求15所述的设备,进一步包括:用于组合所述第一频率带内的所述谱和所述邻近频率带信号谱,以获得带宽扩展信号谱和对应带宽扩展信号的装置。
17.根据权利要求15所述的设备,进一步包括:用于混合所述邻近频率带激励谱和所述邻近频率带内的伪噪声激励谱的装置,其中通过周期性地重复至少一部分所述过渡频带激励谱来生成所述邻近频率带激励谱。
18.根据权利要求17所述的设备,进一步包括:用于使用从所述信号估计的浊化水平来确定用于混合所述邻近频率带激励谱和所述伪噪声激励谱的混合比率的装置。
19.根据权利要求18所述的设备,进一步包括:用于使用所述伪噪声激励谱来填充由于所述过渡频带激励谱中的对应空洞导致的所述邻近频率带激励谱中的任何空洞的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/365,457 | 2009-02-04 | ||
US12/365,457 US8463599B2 (en) | 2009-02-04 | 2009-02-04 | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
PCT/US2010/022879 WO2010091013A1 (en) | 2009-02-04 | 2010-02-02 | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102308333A CN102308333A (zh) | 2012-01-04 |
CN102308333B true CN102308333B (zh) | 2014-03-19 |
Family
ID=42101566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080006565.0A Active CN102308333B (zh) | 2009-02-04 | 2010-02-02 | 修改的离散余弦变换音频编码器的带宽扩展方法和装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8463599B2 (zh) |
EP (1) | EP2394269B1 (zh) |
JP (2) | JP5597896B2 (zh) |
KR (1) | KR101341246B1 (zh) |
CN (1) | CN102308333B (zh) |
BR (1) | BRPI1008520B1 (zh) |
MX (1) | MX2011007807A (zh) |
WO (1) | WO2010091013A1 (zh) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1569200A1 (en) * | 2004-02-26 | 2005-08-31 | Sony International (Europe) GmbH | Identification of the presence of speech in digital audio data |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8463412B2 (en) * | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
US9947340B2 (en) | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
EP2360687A4 (en) * | 2008-12-19 | 2012-07-11 | Fujitsu Ltd | LANGUAGE EXPANSION DEVICE AND LANGUAGE TREATMENT PROCESS |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
WO2011045926A1 (ja) * | 2009-10-14 | 2011-04-21 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
JPWO2011121955A1 (ja) * | 2010-03-30 | 2013-07-04 | パナソニック株式会社 | オーディオ装置 |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
JP2012032713A (ja) * | 2010-08-02 | 2012-02-16 | Sony Corp | 復号装置、復号方法、およびプログラム |
JP6075743B2 (ja) * | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US9008811B2 (en) | 2010-09-17 | 2015-04-14 | Xiph.org Foundation | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
KR20140027091A (ko) | 2011-02-08 | 2014-03-06 | 엘지전자 주식회사 | 대역 확장 방법 및 장치 |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
US9009036B2 (en) | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012122303A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
US9159331B2 (en) | 2011-05-13 | 2015-10-13 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
PL2791937T3 (pl) | 2011-11-02 | 2016-11-30 | Wytworzenie rozszerzenia pasma wysokiego sygnału dźwiękowego o poszerzonym paśmie | |
KR101704482B1 (ko) * | 2012-03-29 | 2017-02-09 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 고조파 오디오 시그널의 대역폭 연장 |
CN105976830B (zh) | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
CN106847297B (zh) * | 2013-01-29 | 2020-07-07 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
US9601125B2 (en) * | 2013-02-08 | 2017-03-21 | Qualcomm Incorporated | Systems and methods of performing noise modulation and gain adjustment |
JP6157926B2 (ja) * | 2013-05-24 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法およびプログラム |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
FR3007563A1 (fr) * | 2013-06-25 | 2014-12-26 | France Telecom | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN108364657B (zh) * | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
CN105531762B (zh) | 2013-09-19 | 2019-10-01 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
CN104517611B (zh) | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
US10083708B2 (en) * | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
KR101498113B1 (ko) * | 2013-10-23 | 2015-03-04 | 광주과학기술원 | 사운드 신호의 대역폭 확장 장치 및 방법 |
KR102356012B1 (ko) | 2013-12-27 | 2022-01-27 | 소니그룹주식회사 | 복호화 장치 및 방법, 및 프로그램 |
FR3017484A1 (fr) | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
ES2741506T3 (es) * | 2014-03-14 | 2020-02-11 | Ericsson Telefon Ab L M | Método y aparato de codificación de audio |
TR201909906T4 (tr) * | 2014-05-01 | 2019-07-22 | Nippon Telegraph & Telephone | Kodlayıcı, kod çözücü, kodlama metodu, kod çözme metodu, kodlama programı, kod çözme programı ve kayıt ortamı. |
KR101860146B1 (ko) * | 2014-05-01 | 2018-05-23 | 니폰 덴신 덴와 가부시끼가이샤 | 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체 |
JP2016038435A (ja) * | 2014-08-06 | 2016-03-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US9536537B2 (en) | 2015-02-27 | 2017-01-03 | Qualcomm Incorporated | Systems and methods for speech restoration |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
KR102721794B1 (ko) | 2016-11-18 | 2024-10-25 | 삼성전자주식회사 | 신호 처리 프로세서 및 신호 처리 프로세서의 제어 방법 |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
WO2020041497A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc. | Speech enhancement and noise suppression systems and methods |
CN112180762B (zh) * | 2020-09-29 | 2021-10-29 | 瑞声新能源发展(常州)有限公司科教城分公司 | 非线性信号系统构建方法、装置、设备和介质 |
CN114694665A (zh) * | 2020-12-28 | 2022-07-01 | 阿里巴巴集团控股有限公司 | 语音信号的处理方法和装置,存储介质和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1206816C (zh) * | 1997-06-10 | 2005-06-15 | 编码技术股份公司 | 采用频带复现增强源编码 |
CN100338649C (zh) * | 2002-03-28 | 2007-09-19 | 杜比实验室特许公司 | 处理音频信号、生成重建的音频信号的方法、设备及媒体 |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
JPH02166198A (ja) | 1988-12-20 | 1990-06-26 | Asahi Glass Co Ltd | ドライクリーニング用洗浄剤 |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5245589A (en) * | 1992-03-20 | 1993-09-14 | Abel Jonathan S | Method and apparatus for processing signals to extract narrow bandwidth features |
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
JPH07160299A (ja) * | 1993-12-06 | 1995-06-23 | Hitachi Denshi Ltd | 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式 |
DE69619284T3 (de) * | 1995-03-13 | 2006-04-27 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur Erweiterung der Sprachbandbreite |
JP2956548B2 (ja) * | 1995-10-05 | 1999-10-04 | 松下電器産業株式会社 | 音声帯域拡大装置 |
JPH0916198A (ja) * | 1995-06-27 | 1997-01-17 | Japan Radio Co Ltd | 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法 |
JP3522954B2 (ja) * | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
US5794185A (en) * | 1996-06-14 | 1998-08-11 | Motorola, Inc. | Method and apparatus for speech coding using ensemble statistics |
US5949878A (en) * | 1996-06-28 | 1999-09-07 | Transcrypt International, Inc. | Method and apparatus for providing voice privacy in electronic communication systems |
JPH10124088A (ja) * | 1996-10-24 | 1998-05-15 | Sony Corp | 音声帯域幅拡張装置及び方法 |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
JP2000305599A (ja) * | 1999-04-22 | 2000-11-02 | Sony Corp | 音声合成装置及び方法、電話装置並びにプログラム提供媒体 |
US7330814B2 (en) * | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US7337107B2 (en) * | 2000-10-02 | 2008-02-26 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
US6990446B1 (en) * | 2000-10-10 | 2006-01-24 | Microsoft Corporation | Method and apparatus using spectral addition for speaker recognition |
US6889182B2 (en) * | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
EP1356454B1 (en) * | 2001-01-19 | 2006-03-01 | Koninklijke Philips Electronics N.V. | Wideband signal transmission system |
SE522553C2 (sv) | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
ATE428167T1 (de) | 2002-07-19 | 2009-04-15 | Nec Corp | Audiodekodierungseinrichtung, dekodierungsverfahren und programm |
JP3861770B2 (ja) * | 2002-08-21 | 2006-12-20 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
KR100917464B1 (ko) * | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
EP1660393B1 (de) * | 2003-09-03 | 2007-05-09 | Phoenix Conveyor Belt Systems GmbH | Einrichtung zur überwachung einer förderanlage |
US7461003B1 (en) * | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
JP2005136647A (ja) * | 2003-10-30 | 2005-05-26 | New Japan Radio Co Ltd | 低音ブースト回路 |
KR100587953B1 (ko) * | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
DE602004020765D1 (de) * | 2004-09-17 | 2009-06-04 | Harman Becker Automotive Sys | Bandbreitenerweiterung von bandbegrenzten Tonsignalen |
KR100708121B1 (ko) | 2005-01-22 | 2007-04-16 | 삼성전자주식회사 | 음성 신호의 대역 확장 방법 및 장치 |
ATE482449T1 (de) * | 2005-04-01 | 2010-10-15 | Qualcomm Inc | Verfahren und vorrichtungen zum kodieren und dekodieren eines hochbandteils eines sprachsignals |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7813931B2 (en) | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
WO2006116024A2 (en) * | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor attenuation |
US8311840B2 (en) * | 2005-06-28 | 2012-11-13 | Qnx Software Systems Limited | Frequency extension of harmonic signals |
KR101171098B1 (ko) * | 2005-07-22 | 2012-08-20 | 삼성전자주식회사 | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 |
US7953605B2 (en) * | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
EP1772855B1 (en) * | 2005-10-07 | 2013-09-18 | Nuance Communications, Inc. | Method for extending the spectral bandwidth of a speech signal |
US7490036B2 (en) * | 2005-10-20 | 2009-02-10 | Motorola, Inc. | Adaptive equalizer for a coded speech signal |
US20070109977A1 (en) * | 2005-11-14 | 2007-05-17 | Udar Mittal | Method and apparatus for improving listener differentiation of talkers during a conference call |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
US7844453B2 (en) * | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US20080004866A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Artificial Bandwidth Expansion Method For A Multichannel Signal |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
ATE446572T1 (de) | 2006-08-22 | 2009-11-15 | Harman Becker Automotive Sys | Verfahren und system zur bereitstellung eines tonsignals mit erweiterter bandbreite |
US8639500B2 (en) * | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
US8229106B2 (en) * | 2007-01-22 | 2012-07-24 | D.S.P. Group, Ltd. | Apparatus and methods for enhancement of speech |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8463412B2 (en) * | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
-
2009
- 2009-02-04 US US12/365,457 patent/US8463599B2/en active Active
-
2010
- 2010-02-02 CN CN201080006565.0A patent/CN102308333B/zh active Active
- 2010-02-02 EP EP10704446.3A patent/EP2394269B1/en active Active
- 2010-02-02 BR BRPI1008520A patent/BRPI1008520B1/pt active IP Right Grant
- 2010-02-02 KR KR1020117018182A patent/KR101341246B1/ko active Active
- 2010-02-02 MX MX2011007807A patent/MX2011007807A/es active IP Right Grant
- 2010-02-02 JP JP2011544700A patent/JP5597896B2/ja active Active
- 2010-02-02 WO PCT/US2010/022879 patent/WO2010091013A1/en active Application Filing
-
2013
- 2013-08-23 JP JP2013173691A patent/JP2014016622A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1206816C (zh) * | 1997-06-10 | 2005-06-15 | 编码技术股份公司 | 采用频带复现增强源编码 |
CN100338649C (zh) * | 2002-03-28 | 2007-09-19 | 杜比实验室特许公司 | 处理音频信号、生成重建的音频信号的方法、设备及媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR101341246B1 (ko) | 2013-12-12 |
MX2011007807A (es) | 2011-09-21 |
BRPI1008520A2 (pt) | 2016-03-08 |
US20100198587A1 (en) | 2010-08-05 |
BRPI1008520B1 (pt) | 2020-05-05 |
JP2014016622A (ja) | 2014-01-30 |
JP2012514763A (ja) | 2012-06-28 |
KR20110111463A (ko) | 2011-10-11 |
EP2394269B1 (en) | 2017-04-05 |
CN102308333A (zh) | 2012-01-04 |
US8463599B2 (en) | 2013-06-11 |
WO2010091013A1 (en) | 2010-08-12 |
JP5597896B2 (ja) | 2014-10-01 |
EP2394269A1 (en) | 2011-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102308333B (zh) | 修改的离散余弦变换音频编码器的带宽扩展方法和装置 | |
EP1719116B1 (en) | Switching from ACELP into TCX coding mode | |
KR101436715B1 (ko) | 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들 | |
US9043214B2 (en) | Systems, methods, and apparatus for gain factor attenuation | |
US9653088B2 (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
US20070147518A1 (en) | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX | |
RU2756435C2 (ru) | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты | |
EP3136386B1 (en) | Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal | |
Atti et al. | Super-wideband bandwidth extension for speech in the 3GPP EVS codec | |
TWI864704B (zh) | 用於音訊編碼器中之尺度參數之諧度相依傾斜控制之設備及方法 | |
US20240371382A1 (en) | Apparatus and method for harmonicity-dependent tilt control of scale parameters in an audio encoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Illinois State Patentee after: MOTOROLA MOBILITY LLC Address before: Illinois State Patentee before: MOTOROLA MOBILITY, Inc. |
|
TR01 | Transfer of patent right |
Effective date of registration: 20160407 Address after: California, USA Patentee after: Google Technology Holdings LLC Address before: Illinois State Patentee before: MOTOROLA MOBILITY LLC |