CN101512639B - 用于语音/音频发送器和接收器的方法和设备 - Google Patents
用于语音/音频发送器和接收器的方法和设备 Download PDFInfo
- Publication number
- CN101512639B CN101512639B CN2006800558420A CN200680055842A CN101512639B CN 101512639 B CN101512639 B CN 101512639B CN 2006800558420 A CN2006800558420 A CN 2006800558420A CN 200680055842 A CN200680055842 A CN 200680055842A CN 101512639 B CN101512639 B CN 101512639B
- Authority
- CN
- China
- Prior art keywords
- audio
- speech
- frequency
- cutoff frequency
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 239000012634 fragment Substances 0.000 claims description 93
- 238000001914 filtration Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000008054 signal transmission Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 abstract description 15
- 230000003044 adaptive effect Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 9
- 230000008447 perception Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 206010038743 Restlessness Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 101100072002 Arabidopsis thaliana ICME gene Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Paper (AREA)
- Manufacture, Treatment Of Glass Fibers (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Abstract
本发明涉及一种音频/语音发送器和一种音频/语音接收器及其方法。音频/语音发送器包括核心编码器,所述核心编码器适于对具有第一采样频率的输入音频/语音信号的核心频带进行编码,其中核心频带包含上至截止频率的频率。音频/语音发送器还包括:分割设备,其适于执行将输入音频/语音信号分割成多个片段;截止频率估计器,其适于为每个片段估计截止频率并且适于向解码器传送关于估计的截止频率的信息;低通滤波器,其适于以所述估计的截止频率对每个片段进行滤波;以及重采样器,其适于以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样,以便生成将被所述核心编码器编码的音频/语音帧。
Description
技术领域
本发明涉及语音/音频发送器和接收器。特别地,本发明涉及提供了改进编码效率的改进语音/音频编解码器(codec)。
背景技术
传统的语音/音频编码由核心编解码器执行。编解码器的意思是编码器和解码器。核心编解码器适于对信号频带的核心频带进行编码/解码,由此,核心频带包括信号的上至(up to)截止频率的必要频率,例如,在窄带语音的情况下截止频率为3400Hz。核心编解码器能够与带宽扩展(BWE)相结合,后者处理核心频带之上且超出截止频率的高频。BWE指的是一种在核心带宽的频谱上增加接收器处频谱(带宽)的方法。BWE的好处是其通常能够在除核心编解码器比特率之外增加很少的额外比特率或不增加比特率的情况下实现。标明核心频带与带宽扩展所处理的高频之间的界限的频点在本说明书中被称为交越频率或截止频率。
超频(overclocking)是一种例如可用于以3GPP TS 26.290扩展的适应性多速率宽带(AMR-WB+)编解码器形式的适应性多速率宽带+(AMR-WB+)-音频编解码器中的方法;代码转换(transcoding)功能,其允许以经修改的内部采样频率来操作编解码器,即使其最初是针对25.6KHz的固定内部采样频率而设计的。如下所述,改变内部采样频率考虑到以超频因数来缩放(scale)比特率、带宽和复杂度。这考虑到根据比特率、带宽和复杂度方面的要求、以非常灵活的方式来操作编解码器。例如,如果需要非常低的比特率,则能够使用低超频因数(=降频(underclocking)),这同时意味着经编码的音频带宽和复杂度得以降低。另一方面,如果需要非常高质量的编码,则使用高超频因数,从而允许以增加比特率和复杂度为代价来对大音频带宽进行编码。
在编码器侧的超频是通过在编码器前端使用灵活的重采样器(resampler)来实现的,其将输入信号的原始音频采样率(例如44.1KHz)转换为任意内部采样频率,所述任意内部采样频率偏离标称内部采样频率的程度为超频因数。实际编码算法通常对以内部采样频率采样的固定信号帧(包含预定义数目的样本)进行操作,因此,原则上其未察觉任何超频。尽管如此,以给定的超频因数对各种编解码器属性进行缩放,例如比特率、复杂度、带宽和交越频率。
所期望的是使用上述超频方法来获得增加的编码效率。这会引起在相同比特率或更低比特率处的改进的信号质量且同时保持相同的质量水平。
专利US 7050972描述了一种用于音频编码系统的方法,该系统适应性地随着时间而调整用于对较低频带进行编码的核心编解码器与较高频带的高频再生系统(其在本说明书中也被称为带宽扩展)之间的交越频率。该专利还描述了能够响应于核心编解码器的能力而进行适配以适当地对低频带进行编码。
但是US 7050972没有提供用于改进核心编解码器的编码效率的手段,即以较低采样频率操作之。该方法的目的仅在于通过对将被核心编解码器编码的带宽进行适配以确保核心编解码器能够适当地对其频带进行编码、来改进总体编码系统的效率。因此,其目的是实现核心频带和带宽扩展频带之间的最优性能折衷,而不是尝试着使核心解码器更为高效。
专利申请(WO-2005096508)描述了另一种方法,该方法包括频带扩展模块、重采样模块和包含心理声学分析模块的核心编解码器、时频映射模块、量化模块、熵编码模块。频带扩展模块分析整个带宽内的原始输入音频信号,提取高频部分的谱包络和表征高低频谱部分之间的依赖性的参数。重采样模块对输入的音频信号进行重采样,改变采样频率,并将它们输出至核心编解码器。
尽管如此,专利申请(WO-2005096508)没有包括考虑根据输入信号的某些分析对重采样模块的操作进行适配的事项。此外,没有预见原始输入信号的适应性分割(segmentation)装置,该装置会允许在适应性重采样之后将输入片段(segment)映射到后续的核心码的输入帧上,所述输入帧包含预定义数目的样本。其结果是,不能确保核心编解码器对最低可能的信号采样率进行操作,因此,总体编码系统的效率不如希望的那么高。
C.Shahabi等人的出版物A Comparison of different hapticcompression techniques;ICME 2002描述了一种用于对数据帧进行操作的触觉数据的适应性采样系统,其周期性地识别用于数据窗的奈奎斯特频率,并且此后以该频率对数据进行重采样。出于实际原因,根据截止频率来选择采样频率,超出截止频率的信号能量能被忽略。
C.Shahabi等人的上述出版物中所描述的方案的问题在于:其在语音和音频编码的环境中没有提供益处。对于触觉数据的采样而言,与超出截止频率(例如1%)的相对能含量相关的标准可能是合适的,其目标是以最低可能采样率来保持对数据的准确表示。尽管如此,在语音和音频编码的环境中,在输入或输出采样频率方面通常存在固定限制,这意味着首先以固定截止频率对原始信号进行低通滤波,并且此后下采样至所需的采样率(例如8、16、32、44.1或48kHz)。因此,语音或音频信号的带宽已经被人为限制为固定的截止频率。根据该出版物中的方法对采样频率的后续适配通常不会奏效,原因在于由于人为固定的截止频率,其只会导致固定的采样频率而非适应性的采样频率。
尽管如此,即使在带宽被人为限制的情况下,依赖于音频信号的本地(在时间上)感知属性,对固定带宽限制的影响的感知未必总是相同的。对于信号的某些部分(片段),其中很难感知到高频,例如由于被占优势的低频含量所掩蔽,更为激进的低通滤波和以相应较低的采样频率进行采样将是可能的。因此,与感知推动的采样频率相比,传统的语音和音频编码系统对局部过高的采样频率进行操作,因而损害了编码效率。
发明内容
本发明的目的是提供用于改进语音/音频编解码器中的编码效率的方法和设备。
根据本发明,通过在本地(在时间上)对采样频率进行适配并确保其不高于必要的采样频率来获得增加的编码效率。
根据第一方面,本发明涉及一种音频/语音发送器,所述音频/语音发送器包括适于对输入音频/语音信号的核心频带进行编码的核心编码器。核心编码器对包含预定数目样本的输入音频/语音信号的帧进行操作。输入音频/语音信号具有第一采样频率,并且核心频带包含上至截止频率的频率。根据本发明的音频/语音发送器包括:分割设备,其适于执行将输入音频/语音信号分割为多个片段,其中每个片段具有适应性的片段长度;截止频率估计器,其适于为与适应性片段长度相关联的每个片段估计截止频率,并且适于向解码器传送关于所估计的截止频率的信息;低通滤波器,其适于以所述估计的截止频率对每个片段进行滤波;和重采样器,其适于以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样,以便生成将被所述核心编码器编码的预定数目的样本的音频/语音帧。
优选地,截止频率估计器适于根据感知标准来分析给定输入片段的属性,以基于该分析来确定将被用于给定片段的截止频率。此外,截止频率估计器还适于提供截止频率的量化估计,以使得根据所述截止频率估计来重新调整分段成为可能。
根据本发明的第二方面,提供了一种适于对所接收的经编码的音频/语音信号进行解码的音频/语音接收器。音频/语音接收器包括重采样器,所述重采样器适于通过使用截止频率估计的信息对经解码的音频/语音帧进行重采样来生成输出语音片段,其中所述信息接收自音频/语音发送器,所述音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。
根据第三方面,本发明涉及音频/语音发送器中的方法。该方法包括以下步骤:将输入音频/语音信号分割为多个片段,其中每个片段具有适应性片段长度;为与适应性片段长度相关联的每个片段估计截止频率并适于向解码器传送关于估计的截止频率的信息;以所述估计的截止频率对每个片段进行低通滤波;并且以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样,以便生成将被所述核心编码器编码的预定数目的样本的音频/语音帧。
根据第四方面,本发明涉及用于对所接收的经编码的音频/语音信号进行解码的音频/语音接收器中的方法。该方法包括以下步骤:通过使用截止频率估计的信息来对经解码的音频/语音帧进行重采样,以生成输出音频/语音片段,其中所述信息接收自音频/语音发送器,该音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。
因而,通过使用上述方法,增加编码效率是可能的。
根据本发明的实施例,结合BWE实现了进一步的效率增加。这允许将核心编解码器的带宽和比特率保持在最小,并且同时确保核心编解码器利用临界(奈奎斯特)采样数据来操作。
本发明的优势是,在使用IP/UDP/RTP的分组切换应用中,所需截止频率的传输是免费的,原因在于其能够通过使用时间标记字段而被间接指示。这表现为优选地进行分组以使得一个IP/UDP/RTP分组对应于一个经编码的片段。
本发明的另一优势是,能够结合现有语音编解码器将其用于VoIP,例如AMR作为核心编解码器,原因是传输格式(例如RFC 3267)未受影响。
附图简述
图1示出了编解码器,其示意性地阐释了本发明的基本概念。
图2示出了具有带宽扩展的图1中的编解码器。
图3示出了在LPC残留域中具有带宽扩展的本发明的操作。
图4图示了用于本发明的一个实施例中的基音排列(pitch-aligned)分段。
图5是根据本发明的方法的流程图。
图6图示了闭环实施例。
详细描述
在以下描述中,出于解释而非限制的目的,阐述了特定细节(诸如步骤的特定序列、信令协议和设备配置)以便提供对本发明的全面理解。对于本领域内的技术人员而言,很明显的是可以在脱离这些特定细节的其他实施例中实施本发明。
此外,本领域内的技术人员将会意识到,可以结合经编程的微处理器或通用计算机使用软件功能并且/或者使用专用集成电路(ASIC)来实现本说明书的下文中所解释的功能。本领域内的技术人员还将意识到,尽管本发明主要是以方法和设备的形式描述的,本发明也可被包含在计算机程序产品以及包含计算机处理器以及耦合至该处理器的存储器的系统中,其中存储器是以可以执行本说明书中所公开的功能的一个或多个程序进行编码的。
本发明的基本概念是将待传送的语音/音频信号划分为特定长度的片段。对于每个片段,面向感知的(perceptually oriented)截止频率估计器得出本地(每片段)适用的截止频率fC,其导致定义的感知质量损耗。这意味着,截止频率估计器适于选择由于频带限制而造成信号失真的截止频率,以至于用户会感觉它们例如可容忍、基本听不到或者听不到。
图1图示了根据本发明的发送器105和接收器165。分割设备110将进入的语音信号划分为多个片段,并且截止频率估计器优选地根据感知标准为每个片段得出截止频率。感知标准旨在模拟人类感知并且被频繁应用在语音和音频信号的编码中。根据感知标准进行编码意味着通过应用听力的心理声学模型来进行编码。该心理声学模型确定目标噪声成形轮廓(shaping profile),其中根据目标噪声成形轮廓对编码噪声进行成形以使得量化(或编码)误差对于人耳而言更难被听到。一种简单的心理声学模型是许多语音编码器的一部分,其在确定LPC综合滤波器的激励信号的过程中应用感知加权滤波器。音频编解码器通常采用更为复杂的心理声学模型,所述心理声学模型可以包含频率掩蔽,其例如使得接近高功率谱分量的低功率谱分量不能被听到。心理声学建模对于语音和音频编码领域内的技术人员而言是公知的。此后,低通滤波器120根据截止频率对这些片段进行低通滤波。重采样器130此后以根据感知截止频率而选择的频率(例如2fC)对片段进行重采样,从而产生帧135。该频率被直接传送至接收器165或借助片段长度被间接传送至接收器165。片段长度继而对应于两个连续分组之间的时间标记差,假设使用了IP/UDP/RTP传输协议或类似协议、并且每个分组的一个编码片段被传送。能够注意到,片段长度ls与fc之间的关系是:ls=nf/2fc,其中nf等于样本中的帧长度。所述帧是到编码器的输入样本的向量,编码器对其进行操作。因而任意语音或音频编解码器的编码器140对所述帧进行编码,并且在信道170上对其进行传送。在接收器165处,使用解码器150对经编码的帧进行解码。在重采样器160处对经解码的帧重采样至原始采样频率,从而产生重建的片段175。为实现这一目的,已经用于重采样的频率(例如2fC)必须如上所述的那样在接收器165处是可用/已知的。
根据一个实施例,将所使用的采样频率作为辅助信息参数直接传送。通常,为了限制其所需的比特率,需要对该参数进行量化和编码。因此,分割和截止频率估计器块还包括用于此的量化和编码实体。一个典型实施例是使用标量量化器,并且将可能的截止频率数目限制为例如2或4的小数字,在此种情况下,1比特编码或2比特编码是可能的。
根据替代性实施例,所使用的采样频率是借助分割通过间接信号传输(signalling)而传送的。一种方式是用信号通知所选择(和量化的)片段长度。通常,截止频率是借助关系式fc=nf/2ls而从片段长度得到的,其将片段长度ls与截止频率2fc以及样本中的帧长度nf相联系。另一间接的可能性是通过使用一个IP/UDP/RTP分组的第一样本和后续分组的第一样本的时间标记来间接传送所使用的采样频率,其中,假设以每个分组一个经编码的片段的形式来进行分组。因而,截止频率估计器110或者还适于将关于所估计的截止频率的信息作为辅助信息参数直接传送到解码器150,或者还适于通过使用当前片段的第一样本和后续片段的第一样本的时刻来将关于所估计的截止频率的信息间接传送到解码器150。
间接信号传输的另一方式是使用与用于信号传输的每个片段相关联的比特率。假设其中恒定比特率就每个帧的编码而言可用的配置,低比特率(每个时间间隔)对应于长片段并且因此低截止频率,反之亦然。甚至另一方式是将用于经编码片段的传输时刻与其结束时刻或相应下个片段的起始时刻关联起来。例如,每个经编码片段是在其结束时间之后的预定义时间传送的。此后,假设传输没有引入过强的延迟抖动,能够在接收器处根据编码片段的到达时间来得到相应片段长度。
以下过程例示了感知截止频率和原始输入信号的适应性分割的导出。
1.以某个初始片段长度l0开始,其可以是预定义的值(例如20ms),或其可以基于先前片段的长度。
2.提取具有长度l0的片段,并且将其馈入感知截止频率估计器,该片段跟在先前片段的末端之后、起始于第一样本。
3.截止频率估计器对该片段进行频率分析,其可基于例如LPC分析,诸如FFT的某种频域变换或通过使用滤波器组。
4.计算并应用感知标准,其给出输入信号的频带限制的感知(听得到的)影响的指示。优选地,其考虑将由后续编码(包括可能的BWE)引入的编码噪声。特别地,在强编码噪声的情况下(例如,由于低比特率),输入信号的频带限制的感知影响会更低,因此更能容忍较强的频带限制。
5.确定频率fc,上至该频率fc的谱含量需要被保持以便根据所计算出的感知标准满足预定义质量水平。
6.根据截止频率与片段长度之间的关系基于fc来重新调整片段长度,该关系通常是lf=nf/2fc,其中nf是后续编解码器的帧长度。
7.终止:分割算法终止,并且将片段和所识别的截止频率传播至后续的处理块。替代性地,如果所发现的片段长度lf偏离初始片段长度l0的程度超出预定义距离,则可以修改分割。在这种情况下,为了提高截止频率估计的准确度,以新的初始分割长度l0=lf在步骤2中重进入算法。
注意:如果截止频率被量化并编码,则该过程优选地限于仅考虑可能并且取自在量化之后可能的截止频率的离散集的片段长度。假设在量化之后,P截止频率的离散集F={fc(i)}i=1...P能够被用信号通知,则必须修改步骤1、6和7以使得片段长度取自片段长度{l(i)}i=1...P的离散集L。借助片段长度与截止频率之间的关系,集L继而对应于集F。
注意,当修改编解码器操作于其上的采样频率时,内部编解码器状态通常受到影响。这些状态因此必须从先前所使用的采样频率转换至经修改的采样频率。通常,在编解码器必须具有时域状态的情况下,状态的该采样率转换能够通过将其重采样至经改变的采样频率来完成。
图2示出了结合了带宽扩展(BWE)设备190的本发明。结合核心解码器150使用带宽扩展设备190允许在一定程度上降低对核心编解码器而言有效的感知截止频率,以使得接收器中的BWE设备仍能够适当地重建已去除的高频含量。尽管核心编解码器对上至截止频率fC的低频带进行编码/解码,但是WE设备190促成了对fC到fS/2范围内的上频带的再生。如图2所示,也可结合核心编码器140来实施BWE编码器设备180。
与专利US7050972中的方法相比并且与之不同,本实施例执行对核心编解码器采样频率的适配。因此,其确保以临界采样数据最高效地操作核心编解码器。此外,相较于US7050972,关于核心编解码器操作于其上的采样频率,本发明没有改变BWE交越频率或者对BWE交越频率进行适配。尽管本发明假设核心编码器操作于上至截止频率的整个频带,但是专利US7050972预见了具有可变交越频率的核心编码器。
本发明可实施在开环实施例和闭环实施例中。
在开环实施例中,截止频率估计器根据某个感知标准来分析给定输入片段的属性。其根据该分析并且可能根据核心编解码器和BWE的性能的某一预期来确定将用于给定片段的截止频率。特别地,该分析是在分割和截止频率过程的步骤4中完成的。
在闭环实施例中,如图6中所示,分割和截止频率过程中的步骤4涉及BWE 602、上采样器603、频带合成器(combiner)(求和点)604和核心解码器601的本地版本,其对可由接收器生成的所接收信号执行完整重建605。此后,编码失真计算器606根据某个保真度标准将重建信号与原始输入语音信号进行比较,所述保真度标准通常还包含感知标准。如果根据所述保真度标准,重建信号不够好,则截止频率估计器607适于向上调整截止频率并因此向上调整每个时间间隔所消耗的比特率,以使得由编码失真计算单元606所确定的编码失真保持在某些预定义限制内。另一方面,如果信号质量过好,则这表明为该片段使用了过多的比特率。因此,能够增加与降低的截止频率和比特率相对应的片段长度。应当注意到,闭环方案同样适用于上述另一实施例,但是没有使用BWE。
在类似的实施例中,可假设主BWE方案为核心编解码器的一部分。在这种情况下,采用次BWE可能是合适的,这又将重建频带从fC扩展到fS/2,并且对应于图2中的BWE 190块。
存在一些优选地会影响分割和截止频率选择的一般因素:
·源输入信号
可以根据某个检测器决策(例如包含音乐/语音活动检测器)或根据待编码的媒体的先验知识(得自于元数据)而获得的信号类别(语音、音乐、混合、休止(inactivity))。
从某个检测器获得的输入信号的噪声情况。例如,在存在背景噪声的情况下,能够向下调整截止频率以便减少该不想要的信号分量的量、并且从而提升总体质量。此外,响应于背景噪声情况而降低截止频率是一种减少用于不想要的信号分量的传输资源(比特率)浪费的手段。
·目标比特率
截止频率可取决于可用于编码的(可能)时变目标比特率。通常,较低的目标比特率会引起选择较低的截止频率,反之亦然。
·来自于接收端的反馈
截止频率可取决于对传输信道的属性和接收端情况的了解,其通常是通过某个后向信号传输信道而获得的。例如,恶劣传输信道的指示会引起降低截止频率以便减少会被传输错误影响的谱信号含量、并且因此改善接收器处所感知的质量。此外,截止频率的降低可对应于所消耗的比特率的降低,其在传输网络中拥塞条件的情况下具有积极效果。
另一来自于接收端的反馈可以包含关于接收端终端性能和信号重放情况的信息。例如接收器处的低质量信号重建的指示会引起降低截止频率以便避免浪费传输比特率。
根据另一实施例,如图3中所示,本发明应用了线性预测编码(LPC)。图3图示了结合图2所描述的发送器和接收器。特别地,LPC设备301执行LPC分析,LPC设备301是去除冗余的适应性预测器。LPC设备301可位于低通滤波120之前并且位于分割和截止频率估计110之后,或者位于分割和截止频率估计110之前,从而产生被馈入重采样设备(即低通滤波器和下采样器)的LPC残留。LPC残留是经LPC分析滤波器滤波的(语音)输入。其也被称为LPC预测错误信号。通过逆LPC对频带合成器(即求和点)所获得的信号进行综合滤波,接收器生成最终的输出信号。描述片段的谱包络并且可能描述增益因数的LPC参数303被作为附加辅助信息传送至接收器以用于LPC综合302。该方法的益处是:因为LPC分析是以原始采样率fs完成的并且是在重采样之前完成的,其为接收器提供了对上至fs/2而非仅fc(如果LPC仅为核心编解码器的一部分,则是这样)的完整谱包络(即包括上述实施例的BWE频带)的准确描述。所描述的借助LPC的方法具有积极效果:BWE甚至可以与例如仅包含简单的低复白噪声发生器、折谱器(spectral folder)或频移器(调制器)的方案一样简单。
根据另一实施例,截止频率和相关的信号重采样频率2fc是根据基音频率估计而选择的。该实施例利用了以下事实:有声语音在基音频率或基本频率方面是高度周期性的,其来源于在生成人类有声语音期间的周期性声门激励。根据图4,现在选择分割以及因此截止频率以使得每个片段401包含语音信号的一个周期或者整数倍周期。更具体地,语音的基本频率通常处于约100到400Hz的范围内,这对应于10ms下至2.5ms的周期。如果语音信号无声,则其缺少具有基音频率的周期性。在那种情况下,能够根据对重采样频率的固定选择来进行分割,或者优选地,根据本文件中的任一实施例来进行分割和截止频率选择。
相应的分割考虑了基音同步操作,所述基音同步操作能使编码算法更为高效,原因是能够更容易地利用语音周期性,并且对语音信号的各种统计参数(例如增益或LPC参数)的估计变得更为一致。
如上所述,本发明涉及一种音频/语音发送器,并且涉及一种音频/语音接收器。此外,本发明还涉及用于音频/语音发送器和音频/语音接收器的方法。图5a的流程图中图示了发送器中的方法的实施例,并且其包含以下步骤:
501执行将输入语音信号初始分割为多个片段。
502为每个片段估计截止频率,并且适于向解码器传送关于所估计的截止频率的信息。
502a根据截止频率估计来重新调整分割。如果新的分割偏离先前分割的程度超过阈值,则返回步骤502。
503以所述估计的截止频率对每个片段进行低通滤波。
504以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样,以便生成将被所述核心编码器编码的语音帧。
图5b的流程图中图示了接收器中的方法,并且其包含以下步骤:
505通过使用截止频率估计的信息对经解码的语音帧进行重采样,以生成输出语音片段,其中所述信息接收自音频/语音发送器,所述发送器包括适于估计和传送所述信息的截止频率估计器。
尽管已经针对特定实施例(包括某些设备配置和各种方法内的某些步骤次序)描述了本发明,但是本领域内的技术人员会意识到,本发明并不限于本说明书中所描述和阐释的特定实施例。因此,应当理解,本公开仅仅是阐释性的。因而,本发明旨在仅由所附权利要求的范围限定。
Claims (36)
1.一种音频/语音发送器(105),包括适于对输入音频/语音信号的核心频带进行编码的核心编码器,所述核心编码器对包含预定数目样本的输入音频/语音信号的帧进行操作,所述输入音频/语音信号具有第一采样频率,并且核心频带包含上至截止频率的频率,其特征在于音频/语音发送器(105)还包括:
-分割设备(110),适于执行将输入音频/语音信号分割为多个片段,其中每个片段具有适应性片段长度,
-截止频率估计器(110),适于为与适应性片段长度相关联的每个片段估计截止频率,并且适于向解码器传送关于估计的截止频率的信息,
-低通滤波器(120),适于以所述估计的截止频率对每个片段进行滤波,以及
-重采样器(130),适于以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样,以便生成将被所述核心编码器(140)编码的预定数目的样本的音频/语音帧。
2.根据权利要求1所述的音频/语音发送器(105),其特征在于截止频率估计器(110)适于根据感知标准来分析给定输入片段的属性,以基于所述分析来确定将被用于给定片段的截止频率。
3.根据权利要求1-2中任一权利要求所述的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于提供截止频率的量化估计。
4.根据权利要求1-2中任一权利要求所述的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于将关于估计的截止频率的信息作为辅助信息参数直接传送到解码器。
5.根据权利要求1-2中任一权利要求所述的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于借助分割通过间接信号传输来向解码器传送关于估计的截止频率的信息。
6.根据权利要求5所述的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于将每个片段的长度用于间接信号传输。
7.根据权利要求5所述的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于将与每个片段相关联的比特率用于间接信号传输。
8.根据权利要求5所述的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于通过使用当前片段的第一样本和后续片段的第一样本的时刻来间接向解码器传送关于估计的截止频率的信息。
9.根据权利要求1-2中任一权利要求所述的音频/语音发送器(105),其特征在于其包括线性预测设备(301),所述线性预测设备位于低通滤波器(120)之前且位于分割设备(110)和截止频率估计器(110)之后,并且适于产生被馈入重采样器中的LPC残留。
10.根据权利要求1-2中任一权利要求所述的音频/语音发送器(105),其特征在于其包括线性预测设备(301),所述线性预测设备位于分割设备和截止频率估计器之前,并且适于产生被馈入分割设备(110)中的LPC残留。
11.根据权利要求1-2中任一权利要求所述的音频/语音发送器(105),其特征在于截止频率和第二采样频率中的至少一个是根据基音频率估计而选择的。
12.根据权利要求1所述的音频/语音发送器(105),其特征在于其包括用于生成与接收器(165)的输出信号相关的信号的装置。
13.根据权利要求12所述的音频/语音发送器(105),其特征在于其包括上采样器(603)和核心解码器(601)的本地版本,适于对所接收的信号执行完整重建,其还包括编码失真计算器(606),所述编码失真计算器(606)适于根据某个保真度标准将重建信号与原始输入语音信号进行比较,由此如果根据所述保真度标准,重建信号不够好,则截止频率估计器(110)适于向上调整截止频率以及每个时间间隔所消耗的比特率,以使得编码失真保持在某些预定义限制内,并且如果信号质量过好,则截止频率估计器(110)适于增加与降低的截止频率和比特率相对应的片段的长度。
14.根据权利要求12所述的音频/语音发送器(105),其特征在于其还包括频带合成器(604)和带宽扩展设备(602)的本地版本,适于对所接收的包括由带宽扩展BWE重建的高频带在内的信号执行完整重建。
15.一种适于对所接收的经编码的音频/语音信号进行解码的音频/语音接收器(165),其特征在于其包括重采样器(160),所述重采样器适于通过使用截止频率估计的信息(162)对经解码的音频/语音帧进行重采样以生成输出语音片段,其中所述信息接收自音频/语音发送器,所述音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。
16.根据权利要求15所述的音频/语音接收器(165),其特征在于其包括适于重建估计的截止频率之上的频率的至少一个带宽扩展设备(190)。
17.根据权利要求15-16中任一权利要求所述的音频/语音接收器(165),其特征在于其还适于将关于估计的截止频率的信息作为辅助信息参数直接接收。
18.根据权利要求15-16中任一权利要求所述的音频/语音接收器(165),其特征在于其适于借助分割通过间接信号传输来接收关于估计的截止频率的信息。
19.根据权利要求18所述的音频/语音接收器(165),其特征在于其适于接收所选择的且量化的片段长度。
20.根据权利要求18所述的音频/语音接收器(165),其特征在于其适于接收与每个片段相关联的比特率以用于间接信号传输。
21.根据权利要求18所述的音频/语音接收器(165),其特征在于其还适于通过当前片段的第一样本和后续片段的第一样本的时刻接收关于估计的截止频率的信息。
22.一种音频/语音发送器中的方法,所述发送器包括适于对输入音频/语音信号的核心频带进行编码的核心编码器,所述核心编码器对包含预定数目样本的输入音频/语音信号的帧进行操作,所述输入音频/语音信号具有第一采样频率,并且核心频带包含上至截止频率的频率,其特征在于:
-将输入音频/语音信号分割(501)为多个片段,其中每个片段具有适应性片段长度,
-为与适应性片段长度相关联的每个片段估计(502)截止频率并适于向解码器传送关于估计的截止频率的信息,
-以所述估计的截止频率对每个片段进行低通滤波(503),以及
-以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样(504),以便生成将被所述核心编码器(140)编码的预定数目的样本的音频/语音帧。
23.根据权利要求22所述的方法,其特征在于另外的步骤:
-根据感知标准来分析给定输入片段的属性,以基于所述分析确定将被用于给定片段的截止频率。
24.根据权利要求22-23中任一权利要求所述的方法,其特征在于另外的步骤:
-根据截止频率估计来重新调整(502a)分段。
25.根据权利要求22-23中任一权利要求所述的方法,其特征在于另外的步骤:
-将关于估计的截止频率的信息作为辅助信息参数直接传送到解码器。
26.根据权利要求22-23中任一权利要求所述的方法,其特征在于另外的步骤:
-借助分割向解码器间接传送关于估计的截止频率的信息。
27.根据权利要求22-23中任一权利要求所述的方法,其特征在于另外的步骤:
-在低通滤波之前且在分割和截止频率估计之后,产生被馈入重采样器中的LPC残留。
28.根据权利要求22-23中任一权利要求所述的方法,其特征在于另外的步骤:
-在分割和截止频率估计之前,产生被馈入分割步骤的LPC残留。
29.根据权利要求22-23中任一权利要求所述的方法,其特征在于截止频率和第二采样频率中的至少一个是根据基音频率估计而选择的。
30.根据权利要求22所述的方法,其特征在于另外的步骤:生成与接收器(165)的输出信号相关的信号。
31.根据权利要求30所述的方法,其特征在于另外的步骤:
对所接收的信号执行完整重建,根据某个保真度标准将重建信号与原始输入语音信号进行比较,由此如果根据所述保真度标准,重建信号不够好,则向上调整截止频率以及每个时间间隔所消耗的比特率,以使得编码失真保持在某些预定义限制内,并且如果信号质量过好,则增加与降低的截止频率和比特率相对应的片段的长度。
32.根据权利要求30所述的方法,其特征在于另外的步骤:
对所接收的包括由带宽扩展BWE重建的高频带在内的信号执行完整重建。
33.一种用于对所接收的经编码的音频/语音信号进行解码的音频/语音接收器中的方法,其特征在于以下步骤:
-通过使用截止频率估计的信息来对经解码的音频/语音帧进行重采样(505)以生成输出音频/语音片段,其中所述信息接收自音频/语音发送器,所述音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。
34.根据权利要求33所述的方法,其特征在于另外的步骤:
-通过至少一个带宽扩展设备对估计的截止频率之上的频率进行重建。
35.根据权利要求33-34中任一权利要求所述的音频/语音接收器(165),其特征在于其还适于将关于估计的截止频率的信息作为辅助信息参数直接接收。
36.根据权利要求33-34中任一权利要求所述的音频/语音接收器(165),其特征在于其适于借助分割通过间接信号传输来接收关于估计的截止频率的信息。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2006/066324 WO2008031458A1 (en) | 2006-09-13 | 2006-09-13 | Methods and arrangements for a speech/audio sender and receiver |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101512639A CN101512639A (zh) | 2009-08-19 |
CN101512639B true CN101512639B (zh) | 2012-03-14 |
Family
ID=37963957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800558420A Expired - Fee Related CN101512639B (zh) | 2006-09-13 | 2006-09-13 | 用于语音/音频发送器和接收器的方法和设备 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8214202B2 (zh) |
EP (1) | EP2062255B1 (zh) |
JP (1) | JP2010503881A (zh) |
CN (1) | CN101512639B (zh) |
AT (1) | ATE463028T1 (zh) |
DE (1) | DE602006013359D1 (zh) |
ES (1) | ES2343862T3 (zh) |
WO (1) | WO2008031458A1 (zh) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0705328D0 (en) | 2007-03-20 | 2007-04-25 | Skype Ltd | Method of transmitting data in a communication system |
CN101965612B (zh) * | 2008-03-03 | 2012-08-29 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN102007534B (zh) * | 2008-03-04 | 2012-11-21 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN102089803B (zh) | 2008-07-11 | 2013-02-27 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
MX2011000367A (es) | 2008-07-11 | 2011-03-02 | Fraunhofer Ges Forschung | Un aparato y un metodo para calcular una cantidad de envolventes espectrales. |
EP2304723B1 (en) * | 2008-07-11 | 2012-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for decoding an encoded audio signal |
GB2466668A (en) | 2009-01-06 | 2010-07-07 | Skype Ltd | Speech filtering |
CN101930736B (zh) * | 2009-06-24 | 2012-04-11 | 展讯通信(上海)有限公司 | 基于子带滤波框架的解码器的音频均衡方法 |
US9196249B1 (en) * | 2009-07-02 | 2015-11-24 | Alon Konchitsky | Method for identifying speech and music components of an analyzed audio signal |
US9196254B1 (en) * | 2009-07-02 | 2015-11-24 | Alon Konchitsky | Method for implementing quality control for one or more components of an audio signal received from a communication device |
US9026440B1 (en) * | 2009-07-02 | 2015-05-05 | Alon Konchitsky | Method for identifying speech and music components of a sound signal |
GB2476041B (en) * | 2009-12-08 | 2017-03-01 | Skype | Encoding and decoding speech signals |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
WO2012076689A1 (en) * | 2010-12-09 | 2012-06-14 | Dolby International Ab | Psychoacoustic filter design for rational resamplers |
CA2929800C (en) | 2010-12-29 | 2017-12-19 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
US8666753B2 (en) | 2011-12-12 | 2014-03-04 | Motorola Mobility Llc | Apparatus and method for audio encoding |
JPWO2014068817A1 (ja) * | 2012-10-31 | 2016-09-08 | 株式会社ソシオネクスト | オーディオ信号符号化装置及びオーディオ信号復号装置 |
CN103915104B (zh) * | 2012-12-31 | 2017-07-21 | 华为技术有限公司 | 信号带宽扩展方法和用户设备 |
BR112015019988B1 (pt) * | 2013-02-22 | 2021-01-05 | Telefonaktiebolaget Lm Ericsson (Publ) | método realizado por um nó transmissor, método realizado por um nó receptor, nó transmissor, nó receptor, e, meios de armazenamento em memória |
TWI546799B (zh) | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
US20180317019A1 (en) | 2013-05-23 | 2018-11-01 | Knowles Electronics, Llc | Acoustic activity detecting microphone |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9712923B2 (en) * | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | VAD detection microphone and method of operating the same |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US10028054B2 (en) | 2013-10-21 | 2018-07-17 | Knowles Electronics, Llc | Apparatus and method for frequency detection |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
FR3011408A1 (fr) * | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
FR3015754A1 (fr) * | 2013-12-20 | 2015-06-26 | Orange | Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame |
CN104882145B (zh) * | 2014-02-28 | 2019-10-29 | 杜比实验室特许公司 | 使用音频对象的时间变化的音频对象聚类 |
KR102244612B1 (ko) * | 2014-04-21 | 2021-04-26 | 삼성전자주식회사 | 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법 |
KR20160000680A (ko) * | 2014-06-25 | 2016-01-05 | 주식회사 더바인코퍼레이션 | 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치 |
CN105279193B (zh) * | 2014-07-22 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 文件处理方法及装置 |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
EP2988300A1 (en) * | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
US10045140B2 (en) | 2015-01-07 | 2018-08-07 | Knowles Electronics, Llc | Utilizing digital microphones for low power keyword detection and noise suppression |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10061554B2 (en) * | 2015-03-10 | 2018-08-28 | GM Global Technology Operations LLC | Adjusting audio sampling used with wideband audio |
US10373608B2 (en) | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
EP3475944B1 (en) * | 2016-06-22 | 2020-07-15 | Dolby International AB | Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain |
CN106328153B (zh) * | 2016-08-24 | 2020-05-08 | 青岛歌尔声学科技有限公司 | 电子通信设备语音信号处理系统、方法和电子通信设备 |
GB201620317D0 (en) * | 2016-11-30 | 2017-01-11 | Microsoft Technology Licensing Llc | Audio signal processing |
CN109036457B (zh) | 2018-09-10 | 2021-10-08 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
CN114283837A (zh) * | 2021-09-09 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208276B1 (en) * | 1998-12-30 | 2001-03-27 | At&T Corporation | Method and apparatus for sample rate pre- and post-processing to achieve maximal coding gain for transform-based audio encoding and decoding |
CN1372426A (zh) * | 2001-02-22 | 2002-10-02 | 阿尔卡塔尔公司 | 移动无线终端的接收器 |
WO2005096508A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Equipement de codage et de decodage audio ameliore, procede associe |
CN1813398A (zh) * | 2003-06-25 | 2006-08-02 | 美商内数位科技公司 | 包括高通滤波器补偿模块以抑制因模拟高通滤器不足所生群组延迟变异失真的数字基带接收器 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4417102A (en) * | 1981-06-04 | 1983-11-22 | Bell Telephone Laboratories, Incorporated | Noise and bit rate reduction arrangements |
US4626827A (en) * | 1982-03-16 | 1986-12-02 | Victor Company Of Japan, Limited | Method and system for data compression by variable frequency sampling |
JPS58165443A (ja) * | 1982-03-26 | 1983-09-30 | Victor Co Of Japan Ltd | 信号の符号化記憶装置 |
AU671952B2 (en) * | 1991-06-11 | 1996-09-19 | Qualcomm Incorporated | Variable rate vocoder |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
US5543792A (en) * | 1994-10-04 | 1996-08-06 | International Business Machines Corporation | Method and apparatus to enhance the efficiency of storing digitized analog signals |
JPH11215006A (ja) * | 1998-01-29 | 1999-08-06 | Olympus Optical Co Ltd | ディジタル音声信号の送信装置及び受信装置 |
US6496794B1 (en) * | 1999-11-22 | 2002-12-17 | Motorola, Inc. | Method and apparatus for seamless multi-rate speech coding |
US6531971B2 (en) * | 2000-05-15 | 2003-03-11 | Achim Kempf | Method for monitoring information density and compressing digitized signals |
JP2002169597A (ja) * | 2000-09-05 | 2002-06-14 | Victor Co Of Japan Ltd | 音声信号処理装置、音声信号処理方法、音声信号処理のプログラム、及び、そのプログラムを記録した記録媒体 |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
SE0004838D0 (sv) * | 2000-12-22 | 2000-12-22 | Ericsson Telefon Ab L M | Method and communication apparatus in a communication system |
US6915264B2 (en) * | 2001-02-22 | 2005-07-05 | Lucent Technologies Inc. | Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
JP3875890B2 (ja) * | 2002-01-21 | 2007-01-31 | 株式会社ケンウッド | 音声信号加工装置、音声信号加工方法及びプログラム |
JP3960932B2 (ja) * | 2002-03-08 | 2007-08-15 | 日本電信電話株式会社 | ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム |
JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
US20070192086A1 (en) * | 2006-02-13 | 2007-08-16 | Linfeng Guo | Perceptual quality based automatic parameter selection for data compression |
JP2007333785A (ja) * | 2006-06-12 | 2007-12-27 | Matsushita Electric Ind Co Ltd | オーディオ信号符号化装置およびオーディオ信号符号化方法 |
-
2006
- 2006-09-13 DE DE602006013359T patent/DE602006013359D1/de active Active
- 2006-09-13 ES ES06778434T patent/ES2343862T3/es active Active
- 2006-09-13 WO PCT/EP2006/066324 patent/WO2008031458A1/en active Application Filing
- 2006-09-13 AT AT06778434T patent/ATE463028T1/de not_active IP Right Cessation
- 2006-09-13 US US12/441,259 patent/US8214202B2/en not_active Expired - Fee Related
- 2006-09-13 JP JP2009527704A patent/JP2010503881A/ja active Pending
- 2006-09-13 EP EP06778434A patent/EP2062255B1/en not_active Not-in-force
- 2006-09-13 CN CN2006800558420A patent/CN101512639B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208276B1 (en) * | 1998-12-30 | 2001-03-27 | At&T Corporation | Method and apparatus for sample rate pre- and post-processing to achieve maximal coding gain for transform-based audio encoding and decoding |
CN1372426A (zh) * | 2001-02-22 | 2002-10-02 | 阿尔卡塔尔公司 | 移动无线终端的接收器 |
CN1813398A (zh) * | 2003-06-25 | 2006-08-02 | 美商内数位科技公司 | 包括高通滤波器补偿模块以抑制因模拟高通滤器不足所生群组延迟变异失真的数字基带接收器 |
WO2005096508A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Equipement de codage et de decodage audio ameliore, procede associe |
Also Published As
Publication number | Publication date |
---|---|
US8214202B2 (en) | 2012-07-03 |
WO2008031458A1 (en) | 2008-03-20 |
CN101512639A (zh) | 2009-08-19 |
EP2062255A1 (en) | 2009-05-27 |
JP2010503881A (ja) | 2010-02-04 |
ATE463028T1 (de) | 2010-04-15 |
DE602006013359D1 (de) | 2010-05-12 |
EP2062255B1 (en) | 2010-03-31 |
ES2343862T3 (es) | 2010-08-11 |
US20090234645A1 (en) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101512639B (zh) | 用于语音/音频发送器和接收器的方法和设备 | |
CA2658560C (en) | Systems and methods for modifying a window with a frame associated with an audio signal | |
KR101445296B1 (ko) | 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램 | |
JP5072835B2 (ja) | 堅牢なデコーダ | |
KR101975066B1 (ko) | 신호 처리 장치 및 방법, 및 컴퓨터 판독가능 기록 매체 | |
TWI441162B (zh) | 音訊信號合成器、音訊信號編碼器、用於產生合成音訊信號及資料流的方法、電腦可讀取媒體及電腦程式 | |
JP4918841B2 (ja) | 符号化システム | |
JP6636574B2 (ja) | 雑音信号処理方法、雑音信号生成方法、符号化器、および、復号化器 | |
RU2752127C2 (ru) | Усовершенствованный квантователь | |
EP1785984A1 (en) | Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method | |
CN103035248B (zh) | 音频信号编码方法和装置 | |
CN102985969B (zh) | 编码装置、解码装置和编码方法、解码方法 | |
JP4489959B2 (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
CN101518083A (zh) | 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法、介质和系统 | |
JP2010170142A (ja) | ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置 | |
WO2005036527A1 (ja) | スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
WO2016016146A1 (en) | Apparatus and method for generating an enhanced signal using independent noise-filling | |
Bhatt et al. | A novel approach for artificial bandwidth extension of speech signals by LPC technique over proposed GSM FR NB coder using high band feature extraction and various extension of excitation methods | |
CN106463140A (zh) | 具有语音信息的改进型帧丢失矫正 | |
JP2020531912A (ja) | ステレオ信号符号化の間に信号を再構成する方法及び機器 | |
JPWO2009038170A1 (ja) | 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120314 Termination date: 20190913 |