CN1820306A - 可变比特率宽带语音编码中增益量化的方法和装置 - Google Patents
可变比特率宽带语音编码中增益量化的方法和装置 Download PDFInfo
- Publication number
- CN1820306A CN1820306A CNA2004800183844A CN200480018384A CN1820306A CN 1820306 A CN1820306 A CN 1820306A CN A2004800183844 A CNA2004800183844 A CN A2004800183844A CN 200480018384 A CN200480018384 A CN 200480018384A CN 1820306 A CN1820306 A CN 1820306A
- Authority
- CN
- China
- Prior art keywords
- gain
- codebook
- quantization
- gain quantization
- subframes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000005236 sound signal Effects 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 238000011002 quantification Methods 0.000 description 31
- 238000005070 sampling Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 13
- 230000005284 excitation Effects 0.000 description 12
- 238000001914 filtration Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005086 pumping Methods 0.000 description 5
- 230000011664 signaling Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000007493 shaping process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 206010038743 Restlessness Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Processing (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
本发明涉及一种增益量化方法和装置,用于实现对编码期间由L个采样连续帧处理的采样声音信号进行编码的技术,其中每个帧被分为若干子帧,并且每个子帧包括N个采样,这里N<L。在该增益量化方法和装置中,基于f个子帧计算初始基音增益,选择与该初始基音增益相关的一部分增益量化码本,并联合量化基音和固定码本增益。对于f个子帧,对基音和固定码本增益的这个联合量化包括搜索与搜索标准相关的增益量化码本。码本搜索限制在增益量化码本的所选部分,并找寻最符合该搜索标准的增益量化码本所选部分的索引。
Description
技术领域
本发明涉及用于对声音信号进行数字编码的改进技术,具体地说,考虑到该声音信号的传输和合成,而不仅仅指语音信号。
背景技术
在诸如电话会议、多媒体和无线通信等各种应用领域中,对在主观质量和比特率之间具有优良权衡的高效数字窄带和宽带语音编码技术的需求不断增加。直到最近,限定在200-3400Hz之间的电话带宽已被主要用在语音编码应用中。不过,与传统电话带宽相比,宽带语音应用在通信方面提供了增强的可理解性和自然性。已经发现50-7000Hz范围内的带宽足以传送如同面对面通信的优良音质。对于一般音频信号来说,虽然该带宽给出了可接受的主观质量,但是其质量还是低于分别在20-16000Hz和20-20000Hz范围内操作的FM无线电或CD的质量。
语音编码器将语音信号转换为通过通信信道传输或存储在存储介质中的数字比特流。该语音信号被数字化,即,采用通常16比特每采样进行采样和量化。语音编码器所扮演的角色是,在保持优良主观语音质量的同时用更少的比特数表示这些数字采样。语音解码器或合成器作用在所传输或存储的比特流上,并将其转换回声音信号。
码激励线性预测(CELP)编码是在主观质量和比特率之间实现优良折衷的最好的先有技术之一。该编码技术构成无线和有线应用中几个语音编码标准的基础。在CELP编码中,在L个采样的连续块(通常称其为帧)中处理采样语音信号,这里L是预先确定的通常对应于10-30ms的数字。对每个帧都要计算和传输线性预测(LP)滤波器。对LP滤波器的计算通常需要先行,即,后续帧中的5-15ms语音片段。L个采样的帧被分为更小的块,称其为子帧。通常,子帧的数量是3或4,产生4-10ms子帧。在每个子帧中,通常从2个分量—以往激励和更新的固定码本激励中获得激励信号。通常将以往激励构成的分量称作自适应码本或基音(pitch)激励。对表征激励信号的参数进行编码,并将其传输到解码器,在此重构的激励信号用作LP滤波器的输入。
在使用码分多址(CDMA)技术的无线系统中,源受控可变比特率(VBR)语音编码的使用极大地改进了系统的能力。在源受控VBR编码中,编解码器工作在几个比特率上,并使用速率选择模块来根据语音帧的特性(例如,浊音、清音、瞬态、背景噪声等)判定使用哪个比特率对每个语音帧进行编码。其目的是,在给定的平均比特率,也称为平均数据率(ADR)上获取最佳语音质量。通过调整速率选择模块以获得不同工作模式的不同ADR,编解码器可以工作在不同模式下,在不同模式中编解码器的性能随着ADR的增加而提高了。系统根据信道条件利用工作模式。这就使得编解码器具有在语音质量和系统能力之间进行权衡的机制。在CDMA系统(例如CDMA 1和CDMA 2000)中,通常使用4个比特率,并将其称为全速率(FR)、半速率(HR)、四分之一速率(QR)和八分之一速率(ER)。在该系统中,所支持的2个速率集称为速率集I和速率集II。在速率集I中,具有速率选择机制的可变速率编解码器工作在13.3(FR)、6.2(HR)、2.7(QR)和1.0(ER)kbit/s的源编码比特率,对应于总比特率14.4、7.2、3.6和1.8kbit/s(增加的一些比特用于误差检测)。
通常,在CDMA系统的VBR编码中,在没有语音活动(安静或仅有噪声帧)的情况下,使用八分之一速率对帧进行编码。当帧是稳定的浊音或稳定的清音时,根据工作模式使用半速率或四分之一速率。当对稳定的清音帧使用半速率时,使用没有基音码本的CELP模型。当对稳定浊音帧使用半速率时,使用信号修正以增强周期性并减少用于基音索引的比特数量。如果工作模式利用四分之一速率,则由于比特数不够并且一般应用某参数的编码,因此通常可能没有波形匹配。全速率用于开始、瞬态帧以及混合浊音帧(通常使用典型的CELP模型)。除了CDMA系统中的源受控编解码器操作外,该系统可以限定某些语音帧中的最大比特率,以便发送带内信令信息(称为模糊与突发信令),或在恶劣的信道条件(诸如接近小区边界)下以便改进编解码器的鲁棒性。这称为最大半速率。当速率选择模块将要编码的帧选作全速率帧而系统利用例如HR帧时,语音性能下降,这是因为专用HR模式不能够有效地对开始和瞬态信号进行编码。另一种通用HR编码模型设计用于处理这些特殊情况。
ITU-T(国际电信联盟一电信标准部)将自适应多速率宽带(AMR-WB)语音编解码器用于几个宽带语音电话技术和服务,而3GPP(第三代移动通信合作计划)将其用于GSM和W-CDMA第三代无线系统。AMR-WB编解码器包括9个比特率,即,6.60、8.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kbit/s。为CDMA系统设计基于AMR-WB的源受控VBR编解码器具有的优点是,使能够利用AMR-WB编解码器在CDMA和其他系统之间相互操作。12.65kbit/s的AMR-WB比特率是能够适合速率集II的13.3kbit/s全速率的最接近速率。该速率可用作CDMA宽带VBR编解码器和AMR-WB之间的公共速率,以使能够在不需要代码转换(其降低了语音质量)的情况下进行相互操作。必须为CDMA VBR宽带解决方案特别设计较低速率编码类型,以使能够在速率集II构架中进行有效运作。然后编解码器可以利用所有速率工作在少数CDMA特定模式下,不过将具有使能够利用AMR-WB编解码器与系统进行相互操作的模式。
在基于CELP的VBR编码中,除了清音和非活动语音类别外,通常所有类别都使用基音(或自适应)码本和更新(固定)码本来表示激励信号。因此编码的激励包括基音延迟(或基音码本索引)、基音增益、更新码本索引和更新码本增益。通常,对基音和更新增益进行联合量化或矢量量化,以产生比特率。如果进行单独量化,则基音增益需要4个比特,而更新码本增益需要5或6个比特。不过,当进行联合量化时,6或7个比特就足够了(节省3个比特每5ms子帧相当于节省0.6kbit/s)。一般来说,利用所有语音片段(例如浊音、清音、瞬态、开始、结束等)类型来训练量化表或码本。在VBR编码环境下,半速率编码模型通常是类别特定的。所以为不同的信号类别(浊音、清音或一般的)设计不同的半速率模型。由此需要为这些类别特定的编码模型设计新的量化表。
发明内容
本发明涉及一种增益量化方法,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;以及
-所述增益量化方法包括:基于f个子帧计算初始基音增益;选择与该初始基音增益相关的部分增益量化码本;利用至少1比特每f个子帧连续组来标识增益量化码本的所选部分;以及联合量化基音和固定码本增益。
对于f个子帧,对基音和固定码本增益的联合量化包括搜索与搜索标准相关的增益量化码本。搜索增益量化码本包括:将码本搜索限制在增益量化码本的所选部分,并找寻最符合搜索标准的增益量化码本所选部分的索引。
本发明还涉及一种增益量化装置,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的系统,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;以及
-所述增益量化装置包括:用于基于f个子帧计算初始基音增益的部件;用于选择与初始基音增益相关的部分增益量化码本的部件;用于利用至少1比特每f个子帧连续组标识增益量化码本所选部分的部件;以及用于联合量化基音和固定码本增益的部件。
用于联合量化基音和固定码本增益的部件包括用于搜索与搜索标准相关的增益量化码本的部件。后面的搜索部件包括用于对于f个子帧将码本搜索限制在增益量化码本所选部分的部件,以及用于找寻最符合搜索标准的增益量化码本所选部分的索引的部件。
本发明还涉及一种增益量化装置,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;以及
-所述增益量化装置包括:基于f个子帧计算初始基音增益的计算器;选择与初始基音增益相关的部分增益量化码本的选择器;利用至少1比特每f个子帧连续组来标识增益量化码本所选部分的标识器;以及用于联合量化基音和固定码本增益的联合量化器。
联合量化器包括用于搜索与搜索标准相关的增益量化码本所选部分的搜索器,增益量化码本的这个搜索器将码本搜索限制在增益量化码本的所选部分,并找寻最符合搜索标准的增益量化码本所选部分的索引。
本发明此外还涉及一种增益量化方法,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中每个帧被分为若干子帧,并且每个子帧包括N个采样,这里N<L。所述增益量化方法包括:
基于大于子帧的周期K计算初始基音增益;
选择与初始基音增益相关的部分增益量化码本;
利用至少1比特每f个子帧连续组来标识增益量化码本的所选部分;以及
联合量化基音和固定码本增益,基音和固定码本增益的这个联合量化包括:
-搜索与搜索标准相关的增益量化码本,对增益量化码本的该搜索包括将码本搜索限制在增益量化码本的所选部分,并找寻最符合搜索标准的增益量化码本所选部分的索引。
基于大于子帧的周期K计算初始基音增益包括用如下关系式:
这里TOL是开环基音延迟,而sw(n)是从采样声音信号的感知加权版本得到的信号。
最后,本发明涉及一种增益量化装置,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中每个帧被分为若干子帧,并且每个子帧包括N个采样,这里N<L。所述增益量化装置包括:
基于大于子帧的周期K计算初始基音增益的计算器;
选择与初始基音增益相关的部分增益量化码本的选择器;
利用至少1比特每f个子帧连续组标识增益量化码本所选部分的标识器;以及
用于联合量化基音和固定码本增益的联合量化器,该联合量化器包括:
-用于搜索与搜索标准相关的增益量化码本所选部分的搜索器,增益量化码本的这个搜索器将码本搜索限制在增益量化码本的所选部分,并找寻最符合搜索标准的增益量化码本所选部分的索引;以及
初始基音增益的计算器包括用于计算初始基音增益g′p的如下关系式:
这里TOL是开环基音延迟,而sw(n)是从声音信号的感知加权版本得到的信号。
通过阅读下面仅参考附图以示例形式给出的说明性实施例的非限制性描述,本发明的前述和其他目的、优点和特性将变得更加显而易见。
附图说明
在附图中:
图1是说明使用根据本发明的语音编码和解码器装置的环境的语音通信系统的示意性框图;
图2是自适应多速率宽带(AMR-WB)编码器的功能框图;
图3是根据本发明方法非限制说明性实施例的示意性流程图;及
图4是根据本发明装置非限制说明性实施例的示意性流程图。
具体实施方式
虽然本发明的非限制说明性实施例将就语音信号来描述,但应当记住,本发明也可用于诸如音频信号等其他声音信号类型。
图1说明了描述使用根据本发明语音编码和解码装置的环境的语音通信系统100。语音通信系统100支持通过通信信道105传输和再现语音信号。虽然通信信道105可包括例如导线、光学或光纤链路,但它通常至少部分包括无线电链路。射频链路通常支持需要共享带宽资源的多个同时进行的语音通信,诸如可在蜂窝式电话实施例中找到的。虽然图中未示出,但通信信道105可由通信系统单个装置实施例中的存储单元替换,该存储单元记录和存储编码的语音信号以便随后重放。
在发射器端,话筒101将语音转换为提供给模数(A/D)转换器102的模拟语音信号110。A/D转换器102的功能是将模拟语音信号110转换为数字语音信号111。语音编码器103对数字语音信号111进行编码,以产生一组二进制形式的信号编码参数112,并将其传送到任选信道编码器104。任选信道编码器104在对信号编码参数112的二进制表示添加冗余之后,通过通信信道105对其(见113)进行传输。
在接收器端,信道解码器106利用所接收比特流114中的冗余信息来检测和校正传输期间发生的信道错误。语音解码器107将从信道解码器中接收的比特流115转换回一组信号编码参数,用以创建合成的语音信号116。在数模(D/A)转换器108中将在语音解码器107中重构的合成语音信号116转换回模拟语音信号117。最后,通过扬声器单元109重放模拟语音信号117。
AMR-WB解码器概述
本节将对工作在12.65kbit/s比特率的AMR-WB编码器进行概述。在本发明的非限制说明性实施例中,该AMR-WB编码器将用作全速率编码器。
以语音信号为例,输入采样声音信号212由图2所示的编码器200按块进行处理或编码,该编码器被拆分成编号从201到211的11个模块。
输入采样语音信号212处理成称为帧的上述L个采样连续块。
参考图2,在下采样器201中,对输入采样语音信号112进行下采样。对于本领域的那些专业技术人员来说,将输入语音信号212从16kHz的采样频率下采样到12.8kHz的采样频率所采用的技术是众所周知的。因为对较小的频带宽度进行编码,因此下采样改进了编码效率。因为减少了帧中的采样数量,因此下采样也降低了算法复杂度。下采样之后,20ms的320个采样帧减少为256个采样帧213(4/5的下采样速率)。
然后将下采样帧213提供给任选预处理单元。在图2的非限制性示例中,预处理单元包括具有50Hz截止频率的高通滤波器202。该高通滤波器202去掉了不想要的50Hz以下的声音分量。
用sp(n)表示下采样预处理信号,这里n=0、1、2、…、L-1,其中L是帧的长度(在12.8kHz的采样频率下为256)。根据非限制性示例,使用具有如下传递函数的预加重滤波器203对信号sp(n)进行预加重:
P(z)=1-μz-1 (1)
这里μ是预加重系数,取值范围在0和1之间(典型值为μ=0.7)。预加重滤波器203的功能是增强输入语音信号的高频内容。预加重滤波器203还减小了输入语音信号的动态范围,这表明它更适于定点实现。在实现量化误差的适当的全面感知加权时,预加重也扮演着重要角色,其有助于改进声音质量。下面将对此进行详细说明。
s(n)表示预加重滤波器203的输出信号。该信号s(n)用于在LP分析、量化和内插模块204中执行LP分析。对于本领域那些专业技术人员来说,LP分析是众所周知的技术。在图2的非限制说明性示例中,使用自相关方法。根据自相关方法,首先一般利用通常具有30-40ms数量级长度的汉明窗对信号s(n)进行开窗。从开窗的信号计算自相关,并用Levinson-Durbin递归算法计算LP滤波器系数ai,这里i=1、2、…、p,并且这里p是LP阶数,在宽带编码中p通常为16。参数ai是LP滤波器传递函数的系数,由下式给出:
在LP分析、量化和内插模块204中执行LP分析,另外还执行LP滤波器系数的量化和内插。首先将LP滤波器系数ai变换到更适于量化和内插的另一个相等域中。线谱对(LSP)和导抗谱对(ISP)域是可以有效执行量化和内插的两个域。可以使用分裂或多级量化或其组合,用若干30到50数量级的比特来量化16个LP滤波器系数ai。内插的目的是使能够在每帧传输一次LP滤波器系数ai时每个子帧就更新它们,这在没增加比特率的情况下改进了编码器性能。对于本领域那些专业技术人员来说,LP滤波器系数的量化和内插认为是众所周知的,因此本说明书中将不再对其进行描述。
以下段落将描述以子帧为基础执行的其余编码操作。在图2所示的非限制说明性示例中,输入帧被分为4个5ms的子帧(在12.8kHz采样下为64个采样)。在下面的描述中,滤波器A(z)表示子帧的未量化内插LP滤波器,而滤波器
表示子帧的量化内插LP滤波器。
在合成分析编码器中,通过最小化感知加权域中的输入语音和合成语音之间的均方误差,来搜索最佳基音和更新参数。在感知加权滤波器205中计算图2中sw(n)表示的感知加权信号。使用适于宽带信号的具有固定分母的感知加权滤波器205。下式给出了感知加权滤波器205的传递函数的示例:
W(z)=A(z/γ1)/(1-γ2z-1),其中0<γ2<γ1≤I。
为了简化基音分析,首先在开环基音搜索模块206中利用加权语音信号sw(n)来估算开环基音延迟TOL。然后将基于子帧在闭环基音搜索模块207中执行的闭环基音分析限制在开环基音延迟TOL附近,由此极大地降低了LTP参数T和gp(分别为基音延迟和基音增益)的搜索复杂度。在模块206中通常用本领域专业技术人员众所周知的技术每10ms(2个子帧)进行一次开环基音分析。
首先计算长期预测(LTP)分析的目标矢量x。这通常是通过从加权语音信号sw(n)中减去加权合成滤波器
的零输入响应s0来实现的。零输入响应计算器208响应于来自LP分析、量化和内插模块204的量化内插LP滤波器
和响应于LP滤波器A(z)和
以及激励矢量u而存储在存储更新模块211中的加权合成滤波器中的初始状态来计算这个零输入响应s0。对于本领域那些专业技术人员来说,该操作是众所周知的,因此本说明书中将不再对其进行描述。
在脉冲响应发生器209中,用来自LP分析、量化和内插模块204的LP滤波器A(z)和
的系数,来计算加权合成滤波器
的N维脉冲响应矢量h。而且,对于本领域那些专业技术人员来说,该操作是众所周知的,因此本说明书中将不再对其进行描述。
在闭环基音搜索模块207中计算闭环基音(或基音码本)参数gp、T和j,所用的输入是目标矢量x(n)、脉冲响应矢量h(n)和开环基音延迟TOL。
基音搜索包括找寻最小化目标矢量x(n)和以往激励gp yT(n)的定标(scaled)滤波版本之间均方加权基音预测误差的最佳基音延迟T和增益gp,例如:
更具体地说,基音码本(自适应码本)搜索包括三个阶段。
在第一阶段,在开环基音搜索模块206中响应加权语音信号sw(n)来估算开环基音延迟TOL。如前所述,利用本领域中那些专业技术人员众所周知的技术,通常每10ms(2个子帧)就进行一次这种开环基音分析。
在第二阶段,在闭环基音搜索模块207中搜索对于估算的开环基音延迟TOL附近的整数基音延迟(通常为±5)的搜索标准C,这明显简化了基音码本搜索程序。使用简单的程序就更新了滤波码矢量yT(n)(在稍后的描述中对该矢量进行定义),而无需对每个基音延迟计算卷积。下式给出了搜索标准C的示例:
一旦在第二阶段找到了最优整数基音延迟,则搜索的第三个阶段(闭环基音搜索模块207)借助搜索标准C来测试该最优整数基音延迟附近的分数。例如,AMR-WB编码器使用1/4和1/2子采样解决方案。
在宽带信号中,根据语音片段,仅达到一定频率谐波结构才存在。因此,为了获得宽带语音信号浊音片段中基音成分的有效表示,需要改变宽带频谱上的周期数的灵活性。这是通过多个频率整形滤波器(例如低通或带通滤波器)对基音码矢量进行处理来实现的,并选择最小化上面定义的均方加权误差e(j)的频率整形滤波器。指数j标识所选的频率整形滤波器。
对基音码本索引T进行编码,并将其传输到多路复用器214,用以通过通信信道进行传输。对基音增益gp进行量化,并将其传输到多路复用器214。使用附加位对指数j进行编码,还将该附加位提供给多路复用器214。
一旦确定了基音或长期预测(LTP)参数gp、T和j,则下一步包括通过图2所示的更新激励搜索模块210搜索最优更新(固定码本)激励。首先,通过减去LTP成分来更新目标矢量x(n):
x′(n)=x(n)-gpyT(n)
这里gp是基音增益,而yT(n)是滤波的基音码本矢量(用所选频率整形滤波器(指数j)滤波的并与脉冲响应h(n)卷积的基音延迟T的以往激励)。
在更新(固定)码本中执行CELP中的更新激励搜索程序,以找寻最小化目标矢量x′(n)和码矢量ck定标滤波版本之间均方误差E的最优激励(固定码本)码矢量ck和增益gc,例如:
E=‖x′-gcHck‖2
这里H是从脉冲响应矢量h(n)得到的较低三角卷积矩阵。将与找到的最优码矢量ck和增益gc相对应的更新码本的索引k提供给多路复用器214,用以通过通信信道进行传输。
应当注意,根据在1995年8月22日授予Adoul等人的美国专利5,444,816,所用的更新码本可以是包括代数码本的动态码本,该代数码本后面是增强给定频谱分量以便改进合成语音质量的自适应预滤波器F(z)。更具体地说,在模块210中可借助如下美国专利中描述的代数码本来执行更新码本搜索:在1995年8月22日颁布的5,444,816(Adoul等人);在1997年12月17日授予Adoul等人的5,699,482;在1998年5月19日授予Adoul等人的5,754,976;以及1997年12月23日的5,701,392(Adoul等人)。
传输最优更新码矢量的索引k。如非限制性示例所示,使用代数码本,其中索引包括激励矢量中的非零振幅脉冲的位置和符号。最后利用联合量化程序对基音增益gp和更新增益gc进行量化,下面将对其进行描述。
表1给出了工作在12.65kbit/s的AMR-WB编码器的位分配。
表1.根据AMR-WB标准在12.65kbit/s
模式下的位分配
参数 | 比特/帧 |
LP参数基音延迟基音滤波增益代数码本VAD(话音活动检测器)标志 | 4630=9+6+9+64=1+1+1+128=7+7+7+7144=36+36+36+361 |
总计 | 253比特=12.65kbit/s |
增益的联合量化
可对基音码本增益gp和更新码本增益gc进行标量或矢量量化。
在标量量化中,通常用4比特对基音增益进行单独量化(在范围0到1.2的不均匀量化)。更新码本增益通常用5或6比特进行量化;用1比特来量化符号,而用4或5比特来量化大小。在对数域中,通常均匀地量化增益的大小。
在联合或矢量量化中,在编码器和解码器端设计并存储量化表或增益量化码本。该码本可以是二维码本,其大小取决于用于量化2个增益gp和gc的比特数。例如,用于量化2个增益gp和gc的7比特码本包括维数为2的128项。通过最小化某个误差标准来找寻某个子帧的最佳项。例如,可通过最小化输入信号和合成信号之间的均方误差来搜索最佳码本项。
为了进一步利用信号相关性,对更新码本增益gc进行预测。通常情况下,在对数域中对定标的更新码本能量进行预测。
例如,用具有固定系数的移动平均(MA)预测进行预测。例如,如下所示对更新码本能量进行第4阶MA预测。令E(n)为子帧n上的平均移除更新码本能量(以dB为单位),并由下式给出:
这里N是子帧的大小,c(i)是更新码本激励,而
E是以dB为单位的平均更新码本能量。在这个非限制性示例中,N=64对应于12.8kHz采样频率下的5ms和
E=30dB。更新码本预测能量由下式给出:
其中[b1,b2,b3,b4]=[0.5,0.4,0.3,0.2]是MA预测系数,而
是子帧n-i上的量化能量预测误差。更新码本预测能量用于计算预测的更新增益g′c,如在公式(3)中将E(n)替换为
并将gc替换为g′c。实现方法如下。首先,用下式计算出平均更新码本能量:
并然后由下式得到预测的更新增益g′c:
在处理输入语音信号212期间计算的增益gc和估算的预测增益g′c之间的校正因子由下式给出:
注意,能量预测误差由下式给出:
用8.85kbit/s和6.60kbit/s的AMR-WB速率的6比特码本以及其他AMR-WB速率的7比特码本,对基音增益gp和校正因子γ进行联合矢量量化。通过最小化最初和重构语音之间的均方加权误差,执行增益量化码本的搜索,其由下式给出:
其中x是目标矢量,y是滤波基音码本信号(信号y(n)通常计算为基音码本矢量与加权合成滤波器的脉冲响应h(n)之间的卷积),z是通过加权合成滤波器滤波的更新码本矢量,而t表示“转置”。与所选增益相关联的量化能量预测误差用于更新R(n)。
可变比特率编码中的增益量化
源受控VBR语音编码的使用极大改进了许多通信系统的能力,尤其是使用CDMA技术的无线系统。在源受控VBR编码中,编解码器工作在几比特率,并且速率选择模块用于根据语音帧的特性(例如浊音、清音、瞬态、背景噪声等)来确定要用于对每个语音帧进行编码的比特率。目的是在给定的平均比特率下获得最佳语音质量。通过调节速率选择模块获得不同的平均数据率(ADR)编解码器可以工作在不同模式下,这里编解码器的性能随着ADR的增加而改进。在一些通信系统中,系统可根据信道条件来使用工作模式。这就为编解码器提供了语音质量和系统能力之间的权衡机制。则编解码器包括信号分类算法,以分析输入语音信号并将每个语音帧分到一组预定类别中的一个类别,例如背景噪声、浊音、清音、混合音、瞬态等。编解码器还包括速率选择算法,以根据语音帧的确定类别和期望的平均比特率来决定要使用什么比特率和什么编码模型。
举例来说,当使用CDMA2000系统时(该系统将称为CDMA系统),通常使用4个比特率,并且它们称为全速率(FR)、半速率(HR)、四分之一速率(QR)和八分之一速率(ER)。而且,CDMA系统支持两个速率集,称为速率集I和速率集II。在速率集II中,具有速率选择机制的可变速率编解码器工作在13.3(FR)、6.2(HR)、2.7(QR)和1.0(ER)kbit/s的源编码比特率。在速率集I中,源编码比特率是8.55(FR)、4.0(HR)、2.0(QR)和0.8(ER)kbit/s。在本发明非限制说明性实施例中将考虑速率集II。
在多模式VBR编码中,可通过定义单个比特率的使用百分比来获得与不同平均比特率相对应的不同工作模式。因此,速率选择算法基于语音帧的特性(分类信息)和所需的平均比特率来决定要用于某个语音帧的比特率。
除了使用工作模式外,CDMA系统还可在一些语音帧上限定最大比特率,以便发送带内信令信息(称为模糊与突发信令),或在恶劣的信道条件(诸如接近小区边界)下改进编解码器鲁棒性。
在本发明非限制说明性实施例中,使用可工作在CDMA2000系统的速率集II的源受控多模式可变比特率编码系统。在下面的描述中它将被称为VMR-WB(可变多速率宽带)编解码器。后一个编解码器基于如前所述的自适应多速率宽带(AMR-WB)语音编解码器。全速率(FR)编码基于12.65kbit/s下的AMR-WB。对于稳定的浊音帧,设计浊音HR编码模型。对于清音帧,设计清音HR和清音QR编码模型。对于背景噪声帧(无效语音),设计ER舒适(comfort)噪声发生器(CNG)。当速率选择算法为特定帧选择FR模型但通信系统出于发信号目的而使用HR时,那么浊音HR和清音HR都不适于对帧进行编码。出于此目的,设计通用HR模型。通用HR模型还可用于对没分类为浊音或清音的帧进行编码,但相对于长期平均能量其具有相对低的能量,因为那些帧具有低的感知重要性。
在表2中总结了上述系统的编码方法,并且通常称为编码类型。在不损失通用性的情况下可使用其他编码类型。
表2.特定VMR-WB编码器及其简要描述
编码技术 | 简要描述 |
通用FR通用HR浊音HR清音HR清音QRCNG ER | 基于12.65kbit/s下的AMR-WB的通用FR编解码器通用HR编解码器HR下的浊音帧编码HR下的清音帧编码QR下的清音帧编码ER下的舒适噪声发生器 |
使用本领域技术人员众所周知的训练程序,为所有信号类别,例如浊音、清音、瞬态、开始、结束等,设计FR编码类型的增益量化码本。在VBR编码环境中,浊音和通用HR编码类型使用基音码本和更新码本来形成激励信号。因此与FR编码类型类似,需要对基音和更新增益(基音码本增益和更新码本增益)进行量化。不过,在较低比特率下,有利于减少设计新码本所需的量化比特数。此外,对于浊音HR,该类别特定编码类型需要新的量化码本。因此,本发明的非限制说明性实施例提供了VBR基于CELP编码中的增益量化,能够在无需为较低速率编码类型设计新量化码本的情况下减少增益量化的比特数。更具体地说,使用设计用于通用FR编码类型的码本部分。基于基音增益值对增益量化码本进行排序。根据在例如2个或2个以上子帧的较长周期上计算的或以基音同步方式在1个或多个基音周期上计算的初始基音增益值,来确定量化中所用的码本部分。由于关于该码本部分的信息没有基于子帧发送出去,因此这将导致比特率减小。此外,由于将减小帧内的增益变化,因此这将使得在稳定浊音帧情况下质量得到改进。
子帧中的未量化基音增益由下式计算:
其中x(n)是目标信号,y(n)是滤波基音码本矢量,而N是子帧的大小(子帧中的采样数)。信号y(n)通常计算为基音码本矢量与加权合成滤波器的脉冲响应h(n)之间的卷积。对于本领域中那些专业技术人员来说,在基于CELP的编码中目标矢量和滤波基音码本矢量之间的计算是众所周知的。关于该计算示例的描述参见[ITU-T建议G.722.2“利用自适应多速率宽带(AMR-WB)在大约16kbit/s下的宽带语音编码”,日内瓦,2002]以及[3GPP TS 26.190,“AMR宽带语音编解码器;代码转换功能”,3GPP技术说明书]。为了降低信道错误情况下不稳定的可能性,将计算的基音增益限定在0和1.2之间的范围。
第一说明性实施例
在第一非限制说明性实施例中,当对具有4个子帧的帧中的第一个子帧进行编码时,利用公式(10),基于同一帧中的前两个子帧来计算初始基音增益gi,但是对于2N(2个子帧)的长度。在这种情况下,公式(10)变为:
然后,在两个子帧周期上,例如帧中的第一和第二个子帧上,还执行目标信号x(n)和滤波基音码本信号y(n)的计算。在大于1个子帧的周期上计算目标信号x(n)是这样实现的:扩展较长周期上的加权语音信号sw(n)和零输入响应s0的计算,同时对于所有扩展周期将同一LP滤波器用在前两个子帧的初始子帧中;目标信号x(n)计算为减去加权合成滤波器
的零输入响应s0之后的加权语音信号sw(n)。类似地,对加权基音码本信号y(n)的计算是这样实现的:扩展大于子帧长度的周期上的第一子帧的基音码本矢量v(n)和加权合成滤波器脉冲响应h(n)的计算;加权基音码本信号是基音码本矢量v(n)和脉冲响应h(n)之间的卷积,其中在这种情况下是在较长周期上计算卷积的。
在2个子帧上计算了初始基音增益gi后,然后在前两个子帧的HR(半速率)编码期间,将基音gp和更新gc增益的联合量化限定在用于以全速率(FR)量化增益的码本部分,由此通过在2个子帧上计算的初始基音增益的值来确定那个部分。在第一非限制说明性实施例中,在FR(全速率)编码类型中,根据之前描述的量化程序,利用7比特联合量化增益gp和gc;在对数域中,对更新的激励能量进行MA预测以获得预测的更新码本增益,并量化校正因子γ。表3给出了用在FR(全速率)编码类型中的量化表内容(如在AMR-WB中所用的[ITU-T建议G.722.2“利用自适应多速率宽带(AMR-WB)在大约16kbit/s下的宽带语音编码”,日内瓦,2002][3GPP TS 26.190,“AMR宽带语音编解码器;代码转换功能”,3GPP技术说明书])。在第一说明性实施例中,根据在2个子帧上计算的初始基音增益值gi,通过将表3(量化表或码本)的搜索限定在该量化表的第一半或第二半,来执行2个子帧的增益gp和gc的量化。如果初始基音增益值gi小于0.768606,则前两个子帧中的量化就限定在表3(量化表或码本)的第一半。否则,量化限定在表3的第二半。基音值0.768606对应于量化表第二半的开始(表3第5列的顶部)的量化基音增益值gp。每2个子帧需要1比特来指示哪部分量化表或码本用于量化。
表3.根据本发明说明性实施例中的基音增益
和更新增益校正因子的量化码本
gp | γ | gp | γ | gp | γ | gp | γ |
0.012445 | 0.215546 | 0.445842 | 1.301113 | 0.768606 | 1.789648 | 0.962628 | 2.514156 |
0.028326 | 0.965442 | 0.455671 | 5.519512 | 0.771245 | 4.085637 | 0.968507 | 0.588605 |
0.053042 | 0.525819 | 0.484764 | 0.387607 | 0.772613 | 0.778145 | 0.974739 | 0.339933 |
0.065409 | 1.495322 | 0.488696 | 0.967884 | 0.786483 | 1.283204 | 0.991738 | 1.750201 |
0.078212 | 2.323725 | 0.488730 | 0.666771 | 0.792467 | 2.412891 | 0.997210 | 0.936131 |
0.100504 | 0.751276 | 0.508189 | 1.516224 | 0.802393 | 0.544588 | 1.002422 | 1.250008 |
0.112617 | 3.427530 | 0.508792 | 2.348662 | 0.807156 | 0.255978 | 1.006040 | 2.167232 |
0.113124 | 0.309583 | 0.531504 | 3.883870 | 0.814280 | 1.544409 | 1.008848 | 3.129940 |
0.121763 | 1.140685 | 0.548649 | 1.112861 | 0.817839 | 0.938798 | 1.014404 | 5.842819 |
0.143515 | 7.519609 | 0.551182 | 0.514986 | 0.826959 | 2.910633 | 1.027798 | 4.287319 |
0.162430 | 0.568752 | 0.564397 | 1.742030 | 0.830453 | 0.684066 | 1.039404 | 1.489295 |
0.164940 | 1.904113 | 0.566598 | 0.796454 | 0.833431 | 1.171532 | 1.039628 | 8.947958 |
0.165429 | 4.947562 | 0.589255 | 3.081743 | 0.841208 | 1.908628 | 1.043214 | 0.765733 |
0.194985 | 0.855463 | 0.598816 | 1.271936 | 0.846440 | 5.333522 | 1.045089 | 2.537806 |
0.213527 | 1.281019 | 0.617654 | 0.333501 | 0.868280 | 0.841519 | 1.058994 | 1.031496 |
0.223544 | 0.414672 | 0.619073 | 2.040522 | 0.868662 | 1.435230 | 1.060415 | 0.478612 |
0.243135 | 2.781766 | 0.625282 | 0.950244 | 0.871449 | 3.675784 | 1.072132 | 12.8 |
0.257180 | 1.659565 | 0.630798 | 0.594883 | 0.881317 | 2.245058 | 1.074778 | 1.910049 |
0.269488 | 0.636749 | 0.638918 | 4.863197 | 0.882020 | 0.480249 | 1.076570 | 15.9999 |
0.286539 | 1.003938 | 0.650102 | 1.464846 | 0.882476 | 1.105804 | 1.107853 | 3.843067 |
0.328124 | 2.225436 | 0.668412 | 0.747138 | 0.902856 | 0.684850 | 1.110673 | 1.228576 |
0.328761 | 0.330278 | 0.669490 | 2.583027 | 0.904419 | 1.682113 | 1.110969 | 2.758471 |
0.336807 | 11.500983 | 0.683757 | 1.125479 | 0.909384 | 2.787801 | 1.140058 | 1.603077 |
0.339794 | 3.805726 | 0.691216 | 1.739274 | 0.916558 | 7.500981 | 1.155384 | 0.668935 |
0.344454 | 1.494626 | 0.718441 | 3.297789 | 0.918444 | 0.950341 | 1.176229 | 6.717108 |
0.346165 | 0.738748 | 0.722608 | 0.902743 | 0.919721 | 1.296319 | 1.179008 | 2.011940 |
0.363605 | 1.141454 | 0.728827 | 2.194941 | 0.940272 | 4.682978 | 1.187735 | 0.963552 |
0.398729 | 0.517614 | 0.729586 | 0.633849 | 0.940273 | 1.991736 | 1.199569 | 4.891432 |
0.415276 | 2.928666 | 0.730907 | 7.432957 | 0.950291 | 3.507281 | 1.206311 | 3.316329 |
0.416282 | 0.862935 | 0.731017 | 0.431076 | 0.957455 | 1.116284 | 1.215323 | 2.507536 |
0.423421 | 1.873310 | 0.731543 | 1.387847 | 0.957723 | 0.793034 | 1.223150 | 1.387102 |
0.444151 | 0.202244 | 0.759183 | 1.045210 | 0.958217 | 1.497824 | 1.296012 | 9.684225 |
应当注意,对于第三和第四个子帧,执行类似的增益量化程序。即,在第三和第四个子帧上计算初始增益gi,然后基于该初始基音增益gi的值确定要在量化程序中使用的增益量化表3(增益量化码本)的部分。最后,将2个增益gp和gc的联合量化限定在所确定的码本部分,并传输一(1)比特以指示使用哪部分;当各码本部分与半个增益量化码本相对应时,需要一(1)比特来指示表或码本部分。
图3和4是根据本发明总结上述方法和装置的第一说明性实施例的示意性流程图和框图。
图3的步骤301包括在2个子帧上计算初始基音增益gi。由图4所示的计算器401执行步骤301。
步骤302包括在例如7比特联合增益量化码本中找寻与最接近初始基音增益gi的基音增益相关联的初始索引。搜索单元402实现步骤302。
步骤303包括选择含有在步骤302中确定的初始索引的量化码本部分(例如一半),并利用至少一(1)比特每两个子帧来标识所选的码本部分(例如一半)。选择器403和标识器404执行步骤303。
步骤304包括将2个子帧中的表或码本搜索限定在所选码本部分(例如一半),并用例如6比特每子帧来表示所选的索引。搜索器405和量化器406执行步骤304。
在上述第一说明性实施例中,在FR(全速率)编码中使用7比特每子帧来量化增益gp和gc,产生28比特每帧。在HR(半速率)浊音和通用编码中,使用与FR(全速率)编码相同的量化码本。但在半部分的情况下,只使用6比特每子帧,并且整个帧需要额外2比特来指示每两个子帧量化中的码本部分。这就给出了总共26比特每子帧,无需增加存储,并且与设计通过实验找到的新的6比特码本相比较,质量改进了。实际上,实验显示,客观结果(例如分段信噪比(Seg-SNR)、平均比特率等)相当于或优于使用最初7比特量化器所获得的结果。这个优良的性能似乎归功于帧内增益变化的减少。表4示出了根据第一说明性实施例的不同编码模式的位分配。
表4.VMR-WB解决方案中所用编码技术的位分配
参数 | 通用FR | 通用HR | 浊音HR | 清音HR | 清音QR | CNGER |
类别信息VAD比特LP参数基音延迟基音滤波增益代数码本FER保护比特未用比特 | --463042814414- | 1-3613-2648-- | 3-36922648-- | 2-46--2452-- | 1-32--20--1 | --14--6--- |
总计 | 266 | 124 | 124 | 124 | 54 | 20 |
可以轻松地得到第一说明性实施例的另一种变化,以便更节省比特数。例如,可在整个帧上计算初始基音增益,并可基于初始基音增益值gl为所有子帧确定用在2个增益gp和gc量化中的码本部分(例如码本一半)。在这种情况下,仅需要1比特每帧来指示产生总计25比特的码本部分(例如码本一半)。
根据另一示例,基于基音增益分类的增益量化码本被分为4个部分,并用初始基音增益值gi来确定要用于量化过程的码本部分。对于表3中给出的7比特码本示例,码本被分为每部分32项的4个部分,对应于下列基音增益范围:小于0.445842、从0.445842到小于0.768606、从0.768606到小于0.962625以及大于或等于0.962625。每子帧各部分中只需5比特来传输量化索引,然后每2个子帧需要2比特来指示正在使用的码本部分。这给出了总计24比特。另外,同一码本部分可用于所有4个子帧,其中每帧将仅需要2比特开销,结果为总计22比特。
同样,根据第一说明性实施例的解码器(未示出)包括例如用于存储量化增益矢量的7比特码本。每两个子帧,解码器接收一(1)比特(在码本一半的情况下)以标识用于对增益gp和gc编码的码本部分,并用6比特每子帧来从那个码本部分提取量化增益。
第二说明性实施例
第二说明性实施例类似于本文上面结合图3和4说明的第一说明性实施例,区别在于初始基音增益gi的计算不同。为简化公式(11)中的计算,可以使用加权声音信号sw(n)或低通滤波抽取的加权声音信号。如下式结果:
其中TOL是开环基音延迟,而K是计算初始基音增益gi的时段。如上所述,时段可以是2或4个子帧,或者可以是开环基音周期TOL的倍数。例如,根据TOL的值,可以设置K等于TOL、2TOL、3TOL等:较大的基音循环数可用于短的基音周期。在不损失通用性的情况下,可在公式(12)中使用其他信号,诸如在基于CELP编码过程中产生的残留信号。
第三说明性实施例
在本发明的第三个非限制说明性实施例中,采用这样的想法:如上所述,根据在较长时段上计算的初始基音增益值gi来限制所搜索的部分增益量化码本。但是,使用该方法的目的不是为了降低比特率,而是为了改进质量。因此不必减少每子帧的比特数和发送关于所用码本部分的开销信息,原因是,总是对整个码本大小来量化索引(根据表3的示例是7比特)。这对用于搜索的码本部分将不加限制。根据在较长时段上计算的初始基音增益值gi而将搜索限制在部分码本这减少了量化增益值中的波动,并改进了总质量,产生更平滑的波形演化。
根据非限制性示例,在每个子帧中使用表3中的量化码本。可在公式(12)或公式(11)或其他适合的方法中计算初始基音增益gi。当使用公式(12)时,K值(开环基音周期的倍数)的示例如下:对于基音值TOL<50,K设置为3TOL;对于基音值51<TOL<96,K设置为2TOL;其他情况下,K设置为TOL。
在计算了初始基音增益gi之后,将矢量量化码本的搜索限制在Iinit-p到Iinit+p范围,其中Iinit是基音增益值最接近初始基音增益gi的增益量化码本矢量的索引。在Iinit-p≥0和Iinit+p<128的限制下,P的典型值是15。一旦找到增益量化索引,就用常用增益量化的7比特对其进行编码。
当然,所公开的发明可能还有许多其他修改和变化。鉴于本发明的上述详细描述及相关附图,对于本领域那些专业技术人员来说,现在这些其他修改和变化将变得显而易见。应当明确,在不脱离本发明思想和范围的情况下,可在权利要求书范围内实现这种其他变化。
Claims (42)
1.一种增益量化方法,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;并且
-所述增益量化方法包括:
基于f个子帧计算初始基音增益;
选择与所述初始基音增益相关的部分增益量化码本;
利用至少1比特每f个子帧连续组来标识所述增益量化码本的所选部分;以及
联合量化基音和固定码本增益,所述基音和固定码本增益的所述联合量化包括对f个子帧:
-搜索与搜索标准相关的所述增益量化码本,所述增益量化码本的所述搜索包括将所述码本搜索限制在所述增益量化码本的所选部分,并找寻最符合所述搜索标准的所述增益量化码本所选部分的索引。
2.如权利要求1所述的增益量化方法,其中计算初始基音增益包括:
用如下关系式基于f个子帧计算所述初始基音增益gi:
其中fN表示f个子帧中的采样数,x(n)是处理所述采样声音信号期间在f个子帧周期上计算的目标信号,而y(n)是处理所述采样声音信号期间在f个子帧周期上计算的滤波自适应码本信号。
3.如权利要求2所述的增益量化方法,其中f个是2个,并且其中计算所述初始基音增益包括:
用如下关系式基于2个子帧计算所述初始基音增益gi:
4.如权利要求2所述的增益量化方法,包括在f个子帧周期上计算所述目标信号x(n),其中所述目标信号计算包括:
通过感知加权滤波器处理所述采样声音信号以计算加权声音信号;
利用在所述f个子帧周期的初始子帧期间计算的线性预测滤波器,来扩展所述f个子帧周期上的所述加权声音信号的计算;
计算加权合成滤波器的零输入响应;以及
利用在所述f个子帧周期的所述初始子帧期间计算的所述线性预测滤波器,来扩展所述f个子帧周期上的所述零输入响应的计算。
5.如权利要求2所述的增益量化方法,包括在所述f个子帧周期上计算所述滤波自适应码本信号,其中所述自适应码本信号的计算包括:
计算自适应码本矢量;
扩展所述f个子帧周期上的所述自适应码本矢量的计算;
计算加权合成滤波器的脉冲响应;
扩展所述f个子帧周期上的所述加权合成滤波器的所述脉冲响应的计算;以及
通过对在所述f个子帧周期上计算的所述自适应码本矢量与在所述f个子帧周期上计算的所述加权合成滤波器的所述脉冲响应进行卷积,来计算所述f个子帧周期上的所述滤波自适应码本信号。
6.如权利要求1所述的增益量化方法,其中所述编码技术是半速率编码技术,并且其中选择部分增益量化码本包括:
选择用于所述采样声音信号的全速率编码的部分增益量化码本。
7.如权利要求1所述的增益量化方法,还包括:
对固定码本能量应用预测方案以产生预测固定码本增益;以及
计算所述固定码本增益的实际值和所述预测固定码本增益之间的校正因子。
8.如权利要求7所述的增益量化方法,其中对所述基音和固定码本增益进行联合量化包括:
联合量化所述基音增益和所述校正因子。
9.如权利要求1所述的增益量化方法,其中搜索所述增益量化码本的所选部分包括:最小化所述采样声音信号和所述采样声音信号的合成版本之间的均方误差。
10.如权利要求1所述的增益量化方法,其中基于f个子帧计算初始基音增益包括:
基于至少2个子帧计算初始基音增益。
11.如权利要求1所述的增益量化方法,包括:
对每f个子帧连续组,重复初始基音增益的所述计算、部分所述增益量化码本的所述选择以及所述基音和固定码本增益的所述联合量化。
12.如权利要求1所述的增益量化方法,其中选择部分所述增益量化码本包括:
在所述增益量化码本中找寻与最接近所述初始基音增益的基音增益相关联的初始索引;以及
选择包含找到的初始索引的部分所述增益量化码本。
13.如权利要求1所述的增益量化方法,包括:
选择帧中的子帧数,如f个。
14.如权利要求1所述的增益量化方法,其中计算所述初始基音增益g′p包括利用如下关系式:
其中TOL是开环基音延迟,而sw(n)是从所述采样声音信号的感知加权版本得到的信号。
15.一种增益量化方法,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;以及
-所述增益量化方法包括:
基于大于所述子帧的周期K计算初始基音增益;
选择与所述初始基音增益相关的部分增益量化码本;
利用至少1比特每f个子帧连续组来标识所述增益量化码本的所选部分;以及
联合量化基音和固定码本增益,所述基音和固定码本增益的所述联合量化包括:
-搜索与搜索标准相关的所述增益量化码本,所述增益量化码本的所述搜索包括:将所述码本搜索限制在所述增益量化码本的所选部分,并找寻最符合所述搜索标准的所述增益量化码本所选部分的索引;并且
基于大于所述子帧的周期K计算初始基音增益包括利用如下关系式:
其中TOL是开环基音延迟,而sw(n)是从所述采样声音信号的感知加权版本得到的信号。
16.如权利要求15所述的增益量化方法,包括设置所述时段K等于所述开环基音延迟TOL。
17.如权利要求15所述的增益量化方法,包括设置所述时段K等于所述开环基音延迟TOL的倍数。
18.如权利要求15所述的增益量化方法,包括设置所述时段K等于至少2个子帧。
19.如权利要求15所述的增益量化方法,其中将所述码本搜索限制在所述增益量化码本的所选部分包括:
减少量化增益值的波动并改进整体声音信号质量,产生较平滑的波形演化。
20.如权利要求15所述的增益量化方法,其中将所述码本搜索限制在所述增益量化码本的所选部分包括:
将所述搜索限定在Iinit-p到Iinit+p的范围,其中Iinit是对应于最接近所述初始基音增益的基音增益的所述增益量化码本的增益矢量的索引,并且其中p是整数。
21.如权利要求20所述的增益量化方法,其中在Iinit-p≥0和Iinit+p<128的限制下,p等于15。
22.一种增益量化装置,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的系统,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;以及
-所述增益量化装置包括:
用于基于f个子帧计算初始基音增益的部件;
用于选择与所述初始基音增益相关的部分增益量化码本的部件;
用于利用至少1比特每f个子帧连续组来标识所述增益量化码本所选部分的部件;以及
用于联合量化基音和固定码本增益的部件,用于联合量化所述基音和固定码本增益的所述部件包括:
-用于搜索与搜索标准相关的所述增益量化码本的部件,所述搜索部件包括:用于将对于f个子帧的码本搜索限制在所述增益量化码本所选部分的部件;以及用于找寻最符合所述搜索标准的所述增益量化码本所选部分的索引的部件。
23.一种增益量化装置,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;以及
-所述增益量化装置包括:
计算器,基于f个子帧计算初始基音增益;
选择器,选择与所述初始基音增益相关的部分增益量化码本;
标识器,利用至少1比特每f个子帧连续组来标识所述增益量化码本的所选部分;以及
联合量化器,用于联合量化基音和固定码本增益,所述联合量化器包括:
-搜索器,用于搜索与搜索标准相关的所述增益量化码本的所选部分,所述增益量化码本的所述搜索器将码本搜索限制在所述增益量化码本的所选部分,并找寻最符合所述搜索标准的所述增益量化码本所选部分的索引。
24.如权利要求23所述的增益量化装置,其中所述初始基音增益的所述计算器包括:
用于基于f个子帧计算所述初始基音增益gi的如下关系式:
其中fN表示f个子帧中的采样数,x(n)是在处理所述采样声音信号期间在f个子帧周期上计算的目标信号,而y(n)是在处理所述采样声音信号期间在所述f个子帧周期上计算的滤波自适应码本信号。
25.如权利要求24所述的增益量化装置,其中f是2个,并且其中所述初始基音增益的所述计算器包括:
用于基于2个子帧计算所述初始基音增益gi的如下关系式:
26.如权利要求24所述的增益量化装置,包括所述f个子帧周期上的所述目标信号x(n)的计算器,其中所述目标信号计算器包括:
感知加权滤波器,响应于所述采样声音信号计算加权声音信号,利用在所述f个子帧周期的初始子帧期间计算的线性预测滤波器扩展所述f个子帧周期上的所述加权声音信号的计算;
加权合成滤波器的零输入响应的计算器,利用在所述f个子帧周期的所述初始子帧期间计算的所述线性预测滤波器扩展所述f个子帧周期上的所述零输入响应的计算。
27.如权利要求24所述的增益量化装置,包括所述f个子帧周期上的所述滤波自适应码本信号的计算器,其中所述自适应码本信号计算器包括:
自适应码本矢量计算器,扩展所述f个子帧周期上的所述自适应码本矢量的计算;
加权合成滤波器脉冲响应的计算器,扩展所述f个子帧周期上的所述加权合成滤波器的所述脉冲响应的计算;以及
所述f个子帧周期上的所述滤波自适应码本信号的计算器,利用在所述f个子帧周期上计算的所述自适应码本矢量与在所述f个子帧周期上计算的所述加权合成滤波器的所述脉冲响应的卷积。
28.如权利要求23所述的增益量化装置,其中所述编码技术是半速率编码技术,并且其中部分增益量化码本的选择器包括:
部分增益量化码本的选择器,用于所述采样声音信号的全速率编码。
29.如权利要求23所述的增益量化装置,还包括:
应用到固定码本能量以产生预测固定码本增益的预测方案;以及
所述固定码本增益的实际值和所述预测固定码本增益之间校正因子的计算器。
30.如权利要求23所述的增益量化装置,其中所述联合量化器包括:
所述基音增益和所述校正因子的联合量化器。
31.如权利要求23所述的增益量化装置,其中所述增益量化码本所选部分的搜索器包括用于最小化所述采样声音信号与所述采样声音信号合成版本之间均方误差的部件。
32.如权利要求23所述的增益量化装置,其中基于f个子帧的初始基音增益的计算器包括:
基于至少2个子帧的初始基音增益的计算器。
33.如权利要求23所述的增益量化装置,包括:
对每f个子帧连续组重复进行初始基音增益的所述计算、部分所述增益量化码本的所述选择以及所述基音和固定码本增益的所述联合量化的重复器。
34.如权利要求23所述的增益量化装置,其中部分所述增益量化码本的选择器包括:
找寻与最接近所述初始基音增益的基音增益相关联的所述增益量化码本的初始索引的找寻器;以及
选择包含找到的初始索引的部分所述增益量化码本的选择器。
35.如权利要求23所述的增益量化装置,包括:
选择器,其选择帧中的子帧数,如f个。
36.一种增益量化装置,用于实现对编码期间由L个采样的连续帧处理的采样声音信号进行编码的技术,其中:
-每个帧被分为若干子帧;
-每个子帧包括N个采样,这里N<L;以及
-所述增益量化装置包括:
计算器,基于大于所述子帧的周期K计算初始基音增益;
选择器,选择与所述初始基音增益相关的部分增益量化码本;
标识器,利用至少1比特每f个子帧连续组来标识所述增益量化码本的所选部分;以及
联合量化器,用于联合量化基音和固定码本增益,所述联合量化器包括:
-搜索与搜索标准相关的所述增益量化码本所选部分的搜索器,所述增益量化码本的所述搜索器将码本搜索限制在所述增益量化码本的所选部分,并找寻最符合所述搜索标准的所述增益量化码本所选部分的索引;并且
所述初始基音增益的所述计算器包括用于计算所述初始基音增益g′p的如下关系式:
其中TOL是开环基音延迟,而sw(n)是从所述声音信号的感知加权版本得到的信号。
37.如权利要求36所述的增益量化装置,包括用于设置所述时段K等于所述开环基音延迟TOL的部件。
38.如权利要求36所述的增益量化装置,包括用于设置所述时段K等于所述开环基音延迟TOL倍数的部件。
39.如权利要求36所述的增益量化装置,包括用于设置所述时段K等于至少2个子帧的部件。
40.如权利要求36所述的增益量化装置,其中所述搜索器包括:
用于减少量化增益值的波动并改进整体声音信号质量而产生较平滑波形演化的部件。
41.如权利要求36所述的增益量化装置,其中所述搜索器包括:
用于将所述搜索限定在Iinit-p到Iinit+p范围的部件,这里Iinit是对应于最接近所述初始基音增益的基音增益的所述增益量化码本的增益矢量的索引,并且其中p是整数。
42.如权利要求41所述的增益量化装置,其中在Iinit-p≥0和Iinit+p<128的限制下,p等于15。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US46678403P | 2003-05-01 | 2003-05-01 | |
US60/466,784 | 2003-05-01 | ||
PCT/CA2004/000380 WO2004097797A1 (en) | 2003-05-01 | 2004-03-12 | Method and device for gain quantization in variable bit rate wideband speech coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1820306A true CN1820306A (zh) | 2006-08-16 |
CN1820306B CN1820306B (zh) | 2010-05-05 |
Family
ID=33418422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800183844A Expired - Lifetime CN1820306B (zh) | 2003-05-01 | 2004-03-12 | 可变比特率宽带语音编码中增益量化的方法和装置 |
Country Status (12)
Country | Link |
---|---|
US (1) | US7778827B2 (zh) |
EP (1) | EP1618557B1 (zh) |
JP (1) | JP4390803B2 (zh) |
KR (1) | KR100732659B1 (zh) |
CN (1) | CN1820306B (zh) |
AT (1) | ATE368279T1 (zh) |
BR (1) | BRPI0409970B1 (zh) |
DE (1) | DE602004007786T2 (zh) |
HK (1) | HK1082315A1 (zh) |
MY (1) | MY143176A (zh) |
RU (1) | RU2316059C2 (zh) |
WO (1) | WO2004097797A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009097763A1 (zh) * | 2008-01-31 | 2009-08-13 | Huawei Technologies Co., Ltd. | 一种增益量化方法及装置 |
WO2010075784A1 (zh) * | 2008-12-31 | 2010-07-08 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
CN101986629A (zh) * | 2010-10-25 | 2011-03-16 | 华为技术有限公司 | 估计窄带干扰的方法、装置及接收设备 |
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
CN102144256B (zh) * | 2008-07-17 | 2013-08-28 | 诺基亚公司 | 用于针对矢量量化器的快速最近邻搜索的方法和设备 |
WO2016141731A1 (zh) * | 2015-03-09 | 2016-09-15 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
CN113823298A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1496500B1 (en) * | 2003-07-09 | 2007-02-28 | Samsung Electronics Co., Ltd. | Bitrate scalable speech coding and decoding apparatus and method |
KR100668300B1 (ko) * | 2003-07-09 | 2007-01-12 | 삼성전자주식회사 | 비트율 확장 음성 부호화 및 복호화 장치와 그 방법 |
US7353436B2 (en) * | 2004-07-21 | 2008-04-01 | Pulse-Link, Inc. | Synchronization code methods |
US8031583B2 (en) | 2005-03-30 | 2011-10-04 | Motorola Mobility, Inc. | Method and apparatus for reducing round trip latency and overhead within a communication system |
SG163555A1 (en) * | 2005-04-01 | 2010-08-30 | Qualcomm Inc | Systems, methods, and apparatus for highband burst suppression |
TR201821299T4 (tr) * | 2005-04-22 | 2019-01-21 | Qualcomm Inc | Kazanç faktörü yumuşatma için sistemler, yöntemler ve aparat. |
US20070005347A1 (en) * | 2005-06-30 | 2007-01-04 | Kotzin Michael D | Method and apparatus for data frame construction |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
US8400998B2 (en) | 2006-08-23 | 2013-03-19 | Motorola Mobility Llc | Downlink control channel signaling in wireless communication systems |
US7788827B2 (en) * | 2007-03-06 | 2010-09-07 | Nike, Inc. | Article of footwear with mesh on outsole and insert |
US9466307B1 (en) * | 2007-05-22 | 2016-10-11 | Digimarc Corporation | Robust spectral encoding and decoding methods |
KR101449431B1 (ko) * | 2007-10-09 | 2014-10-14 | 삼성전자주식회사 | 계층형 광대역 오디오 신호의 부호화 방법 및 장치 |
MX2010002629A (es) * | 2007-11-21 | 2010-06-02 | Lg Electronics Inc | Metodo y aparato para procesar una señal. |
EP2107556A1 (en) | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
JP5425066B2 (ja) * | 2008-06-19 | 2014-02-26 | パナソニック株式会社 | 量子化装置、符号化装置およびこれらの方法 |
CA2972812C (en) * | 2008-07-10 | 2018-07-24 | Voiceage Corporation | Device and method for quantizing and inverse quantizing lpc filters in a super-frame |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
PL2311033T3 (pl) | 2008-07-11 | 2012-05-31 | Fraunhofer Ges Forschung | Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem |
CN101615395B (zh) | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
US8855062B2 (en) | 2009-05-28 | 2014-10-07 | Qualcomm Incorporated | Dynamic selection of subframe formats in a wireless network |
ES2453098T3 (es) * | 2009-10-20 | 2014-04-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Códec multimodo de audio |
CN102884574B (zh) * | 2009-10-20 | 2015-10-14 | 弗兰霍菲尔运输应用研究公司 | 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法 |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
US9626982B2 (en) | 2011-02-15 | 2017-04-18 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec |
CA2821577C (en) | 2011-02-15 | 2020-03-24 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec |
GB2490879B (en) | 2011-05-12 | 2018-12-26 | Qualcomm Technologies Int Ltd | Hybrid coded audio data streaming apparatus and method |
CN103915097B (zh) * | 2013-01-04 | 2017-03-22 | 中国移动通信集团公司 | 一种语音信号处理方法、装置和系统 |
US9607624B2 (en) * | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
TWI557726B (zh) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法 |
PL3058568T3 (pl) | 2013-10-18 | 2021-07-05 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Koncepcja kodowania sygnału audio i dekodowania sygnału audio z wykorzystaniem związanych z mową informacji kształtowania widmowego |
BR112016008544B1 (pt) * | 2013-10-18 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. |
US10944418B2 (en) | 2018-01-26 | 2021-03-09 | Mediatek Inc. | Analog-to-digital converter capable of generate digital output signal having different bits |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE504397C2 (sv) * | 1995-05-03 | 1997-01-27 | Ericsson Telefon Ab L M | Metod för förstärkningskvantisering vid linjärprediktiv talkodning med kodboksexcitering |
US5664055A (en) | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6397178B1 (en) * | 1998-09-18 | 2002-05-28 | Conexant Systems, Inc. | Data organizational scheme for enhanced selection of gain parameters for speech coding |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
ATE439666T1 (de) | 2001-02-27 | 2009-08-15 | Texas Instruments Inc | Verschleierungsverfahren bei verlust von sprachrahmen und dekoder dafer |
KR20040095205A (ko) | 2002-01-08 | 2004-11-12 | 딜리시움 네트웍스 피티와이 리미티드 | Celp를 기반으로 하는 음성 코드간 변환코딩 방식 |
JP4330346B2 (ja) | 2002-02-04 | 2009-09-16 | 富士通株式会社 | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム |
-
2004
- 2004-03-12 WO PCT/CA2004/000380 patent/WO2004097797A1/en active IP Right Grant
- 2004-03-12 CN CN2004800183844A patent/CN1820306B/zh not_active Expired - Lifetime
- 2004-03-12 BR BRPI0409970-2A patent/BRPI0409970B1/pt not_active IP Right Cessation
- 2004-03-12 JP JP2006504076A patent/JP4390803B2/ja not_active Expired - Lifetime
- 2004-03-12 EP EP04719892A patent/EP1618557B1/en not_active Expired - Lifetime
- 2004-03-12 DE DE602004007786T patent/DE602004007786T2/de not_active Expired - Lifetime
- 2004-03-12 AT AT04719892T patent/ATE368279T1/de active
- 2004-03-12 KR KR1020057020667A patent/KR100732659B1/ko active IP Right Grant
- 2004-03-12 RU RU2005137320/09A patent/RU2316059C2/ru active
- 2004-03-18 MY MYPI20040966A patent/MY143176A/en unknown
-
2005
- 2005-01-19 US US11/039,538 patent/US7778827B2/en active Active
-
2006
- 2006-02-15 HK HK06101938A patent/HK1082315A1/xx not_active IP Right Cessation
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009097763A1 (zh) * | 2008-01-31 | 2009-08-13 | Huawei Technologies Co., Ltd. | 一种增益量化方法及装置 |
CN101499281B (zh) * | 2008-01-31 | 2011-04-27 | 华为技术有限公司 | 一种语音编码中的增益量化方法及装置 |
CN102144256B (zh) * | 2008-07-17 | 2013-08-28 | 诺基亚公司 | 用于针对矢量量化器的快速最近邻搜索的方法和设备 |
WO2010075784A1 (zh) * | 2008-12-31 | 2010-07-08 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
CN101986629A (zh) * | 2010-10-25 | 2011-03-16 | 华为技术有限公司 | 估计窄带干扰的方法、装置及接收设备 |
WO2016141731A1 (zh) * | 2015-03-09 | 2016-09-15 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
RU2682026C1 (ru) * | 2015-03-09 | 2019-03-14 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство для определения параметра межканальной разности времени |
US10388288B2 (en) | 2015-03-09 | 2019-08-20 | Huawei Technologies Co., Ltd. | Method and apparatus for determining inter-channel time difference parameter |
CN113823298A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113823298B (zh) * | 2021-06-15 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
RU2005137320A (ru) | 2006-06-10 |
CN1820306B (zh) | 2010-05-05 |
JP4390803B2 (ja) | 2009-12-24 |
ATE368279T1 (de) | 2007-08-15 |
US7778827B2 (en) | 2010-08-17 |
RU2316059C2 (ru) | 2008-01-27 |
JP2006525533A (ja) | 2006-11-09 |
DE602004007786T2 (de) | 2008-04-30 |
EP1618557A1 (en) | 2006-01-25 |
BRPI0409970B1 (pt) | 2018-07-24 |
HK1082315A1 (en) | 2006-06-02 |
KR100732659B1 (ko) | 2007-06-27 |
DE602004007786D1 (de) | 2007-09-06 |
WO2004097797A1 (en) | 2004-11-11 |
MY143176A (en) | 2011-03-31 |
EP1618557B1 (en) | 2007-07-25 |
US20050251387A1 (en) | 2005-11-10 |
KR20060007412A (ko) | 2006-01-24 |
BRPI0409970A (pt) | 2006-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1820306A (zh) | 可变比特率宽带语音编码中增益量化的方法和装置 | |
CN1244907C (zh) | 宽带语音编解码器中的高频增强层编码方法和装置 | |
US7383176B2 (en) | Apparatus and method for speech coding | |
CN1172292C (zh) | 在编码宽带信号中用于适应性带宽音调搜寻的方法与设备 | |
CN1150516C (zh) | 语音编码方法和语音编码器 | |
CN1223989C (zh) | 可变速率语音编码器中的帧擦除补偿法及用该方法的装置 | |
CN1158648C (zh) | 语音可变速率编码方法与设备 | |
JP5037772B2 (ja) | 音声発話を予測的に量子化するための方法および装置 | |
CN1185624C (zh) | 具有自适应编码配置的语音编码系统 | |
CN1252681C (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1121683C (zh) | 语音编码 | |
CN1692408A (zh) | 码分多址无线系统的可变比特率宽带语音编码中的有效带内半空白-突发序列信令及半速率最大操作的方法和装置 | |
JP2006525533A5 (zh) | ||
CN1969319A (zh) | 信号编码 | |
CN1795495A (zh) | 音频编码设备、音频解码设备、音频编码方法和音频解码方法 | |
CN1167048C (zh) | 语音编码设备和语音解码设备 | |
CN1591575A (zh) | 合成语音的方法和装置 | |
CN1457425A (zh) | 用于语音编码的码本结构与搜索 | |
CN1159691A (zh) | 用于声频信号线性预测分析的方法 | |
CN1151492C (zh) | 综合-分析线性预测语音编码中的增益量化方法 | |
CN1711589A (zh) | 在语音编码系统中对增益信息进行编码的方法和装置 | |
CN1841499A (zh) | 代码转换装置和方法 | |
CA2514249C (en) | A speech coding system using a dispersed-pulse codebook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160112 Address after: Espoo, Finland Patentee after: NOKIA TECHNOLOGIES OY Address before: Espoo, Finland Patentee before: NOKIA Corp. |
|
CX01 | Expiry of patent term |
Granted publication date: 20100505 |
|
CX01 | Expiry of patent term |