CN101322181B - 有效的语音流转换方法及装置 - Google Patents
有效的语音流转换方法及装置 Download PDFInfo
- Publication number
- CN101322181B CN101322181B CN2005800521991A CN200580052199A CN101322181B CN 101322181 B CN101322181 B CN 101322181B CN 2005800521991 A CN2005800521991 A CN 2005800521991A CN 200580052199 A CN200580052199 A CN 200580052199A CN 101322181 B CN101322181 B CN 101322181B
- Authority
- CN
- China
- Prior art keywords
- voice
- coding scheme
- frame
- voice coding
- efr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 72
- 238000000034 method Methods 0.000 title claims description 67
- 230000006835 compression Effects 0.000 claims abstract description 19
- 238000007906 compression Methods 0.000 claims abstract description 19
- 230000001105 regulatory effect Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 13
- 238000011002 quantification Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 230000004069 differentiation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 29
- 230000007704 transition Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 8
- 239000000243 solution Substances 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 8
- 206010038743 Restlessness Diseases 0.000 description 7
- 229920006395 saturated elastomer Polymers 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 206010019133 Hangover Diseases 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 244000188472 Ilex paraguariensis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
将第一语音编码方案的语音帧用作(210)第二语音编码方案的语音帧,其中所述语音编码方案使用相似的用于语音帧的核心压缩方案,其优选地是比特流兼容的。优选地,通过确定(214)诸如语音类型转变之类的预定语音演变(例如在一定时段的语音静默之后语音开始)的出现,或者通过对第一语音编码方案和第二语音编码方案之间的能量参数进行试探性解码并且接着进行比较,来识别(216)这两种语音编码方案之间的能量参数中的状态失配的出现。随后,在状态失配出现后调节(218)第二语音编码方案的至少一个帧中的能量参数。本发明还给出了提供这种代码转换功能的代码转换器和通信系统。
Description
技术领域
本发明总体上涉及语音数据通信,并且尤其涉及用于将编码的语音流从第一编码方案转换成第二编码方案的方法和装置。
背景技术
终端之间例如语音、音频或视频数据之类的数据的通信通常经由通过通信网络发送的编码的数据流来实现。为了将编码的数据流从发送终端传送到接收终端,首先由发送终端的编码器依照一定的编码方案对该数据流进行编码。执行所述编码通常是为了压缩数据并且使其适应通信的其他要求。编码的数据流经由通信网络发送到接收终端,其中所接收的编码的数据流由解码器解码以便由接收终端进行进一步的处理。这种端到端通信依赖于发送端的编码器和接收端的解码器是兼容的。
代码转换器(transcoder)是一种执行第一数据流到第二数据流的转换的设备,所述第一数据流依照第一编码方案来编码,所述第二数据流对应于第一数据流,但是依照第二编码方案来编码。因此,如果发送/接收终端中的编码器/解码器对不兼容,那么可以在通信网络中安装一个或多个代码转换器,使得可以经由通信网络将编码的数据流传输到接收终端,由此接收终端能够解码所接收的编码的数据流。
在通信网络中的不同位置处需要代码转换器。在一些通信网络中,具有不同传输比特率的传输模式是可用的,以便克服例如容量问题或链路质量问题。这样的不同比特率可以用于整个端到端通信上或者仅用于某些部分上。有时终端没有对所有的可替换比特率有所准备,这意味着必须在通信网络中采用一个或多个代码转换器来将编码的数据流转换成合适的编码方案。
代码转换通常需要对依照第一编码方案编码的编码的语音流进行解码并且接着依照第二编码方案对所述解码语音流进行编码。这种汇接(tandeming)通常使用标准化的解码器和编码器。因此,完全的代码转换一般要求完整的解码器和完整的编码器。然而,其中对所有编码参数都进行重新计算的这种汇接代码转换的现有解决方案消耗了大量的 计算能力,因为就周期和诸如可编程ROM、静态RAM和动态RAM之类的存储器而言,完全的代码转换是相当复杂的。此外,重新编码使得语音表示退化,这降低了最终的语音质量。而且,由于处理时间以及在第二编解码器中可能存在的先行(look ahead)语音样本缓冲器而引入了延迟。这种延迟特别对于实时或准实时通信(例如语音、视频、音频播出或其组合)来说是有害的。
已经努力来对代表依照预定义算法编码的数据流的编码参数进行代码转换,以便直接形成一组全新的、代表依照第二编码方案编码的数据流的编码参数,而不必经过合成语音的状态。然而,这样的任务是复杂的,并且产生了许多种类的伪像。
在3G(UTRAN)网络中,自适应多速率(AMR)编码方案在长时间内将是主流声音编解码器。“AMR-12.2”(依照3GPP/TS-26.071)是一种以12.2kbit/s的比特率操作的代数码激励线性预测(ACELP)编码器。帧的大小为20ms,具有4个5ms的子帧。使用了5ms的先行。采用了非连续传输(DTX)功能,用于AMR-12.2声音编解码器。
对于2.xG(GERAN)网络,则是GSM-EFR将在相当长时间段内在网络节点中占主导地位,即使引入能够实现AMR编码方案的手持设备,情况也将如此。GSM-EFR编解码器(依照3GPP/TS-06.51)也基于将20ms语音帧划分成4个子帧的12.2kbit/s ACELP编码器。不过,没有使用先行。采用了非连续传输(DTX)功能,但是用于GSM-EFR声音编解码器,这与AMR-12.2相比是不同的。
因此对于两种类型的网络之间的通信而言,需要解码到PCM域(64kbit/s)中或者在参数域(12.2kbps)中分别在AMR-12.2和GSM-EFR之间来回进行直接的代码转换。
由于在AMR算法中用于声音活动检测(VAD)的先行缓冲器的原因,GSM-EFR到AMR-12.2方向的完全代码转换(汇接)将添加至少5ms的附加延迟。完全代码转换的实际处理延迟也将在一定程度上增大总体延迟。
由于AMR-12.2和GSM-EFR编解码器共享相同的核心压缩方案(12.2kbit/s ACELP编码器将20ms的语音帧划分成4个子帧),因此可以设想,能够设计出低复杂度的直接转换方案。于是,相比于完全代码转换情况下的64kbit/s通信,这也将提供网络边界上的完全的 12.2kbit/s通信。一种可能的方法会是基于另一种编码方案的解码器对一种编码方案创建的语音帧的直接使用。然而,已经进行了若干测试,其展现了严重的语音伪像,特别是出现了令人心烦的噪声脉冲串。
在公布的美国专利申请2003/0177004中,公开了一种用于将基于CELP的压缩声音比特流从源编解码代码转换到目的编解码的方法。来自输入CELP比特流的一个或多个源CELP参数被解包并插值成目的编解码格式,以便克服帧大小、采样率等方面的差异。
在美国专利6260009中,公开了一种用于基于CELP到基于CELP的声码器分组变换的方法和装置。该装置包括共振峰参数变换器和激励参数变换器。提供了共振峰滤波器系数和输出码书以及基频(pitch)参数。
这些现有技术系统中没有一种讨论了具有相似核心压缩方案的编解码系统的任何剩余互操作性问题。
发明内容
现有技术语音代码转换方法和设备的一般问题是它们引入了令人心烦的伪像,例如延迟、降低的总体语音质量或者出现的噪声脉冲串(burst)。另一个一般问题是所需的计算要求相对较高。
因此,本发明的总体目的是提供使用较小的计算能力同时保持质量级别的语音代码转换。换言之,目的是提供没有主观质量退化的低复杂度语音流转换。本发明的另一个目的是提供用于在涉及的编码方案的参数域之间进行直接转换的语音代码转换,其中所述涉及的编码方案对于语音帧使用相似的核心压缩方案。
上述目的是通过依照随附专利权利要求的方法和装置来实现的。总的说来,第一语音编码方案的语音帧用作第二语音编码方案的语音帧,其中这些语音编码方案对于语音帧使用相似的核心压缩方案,所述相似的核心压缩方案优选地是比特流兼容的。优选地,通过确定诸如语音类型转变之类的预定语音演变(例如在一定时段的语音静默之后语音开始)的出现,或者通过对第一语音编码方案和第二语音编码方案之间的能量参数进行试探性解码并且接着进行比较,来识别这两种语音编码方案之间的能量参数中的状态失配的出现。随后,在状态失配出现后调节第二语音编码方案的至少一个帧中的能量参数。本发明还给出了提供这种代码转换功能的代码转换器和通信系统。从而,对初始语音帧进行单独地 处理并且提供用于改善格式转换的主观性能的优选算法和设备。
在特定实施例中,提供了能够将AMR-12.2流转换成GSM-EFR流以及将GSM-EFR流转换成AMR-12.2流的有效转换方案。优选地,结合对于静音描述符参数的重新量化来修改初始语音帧中的参数以便补偿状态缺陷。优选地,修改话音脉冲串中的初始语音帧的语音参数,以便补偿与舒适噪声参数的重新量化和再同步有关的编解码状态差异。在另外的特定实施例中,给出了对于G.729(ITU-T 8kbps)到/来自AMR7.4(DAMPS-EFR)的编解码器提供低复杂度转换的可能性的有效转换方案。在另外的特定实施例中,给出了提供在PDC-EFR编解码器和AMR67之间的相似转换的有效转换方案。
本发明具有许多优点。可以在低比特率参数域而不是以高比特率语音流执行利用不同编码方案的网络间通信。对于AMR-12.2到GSM-EFR的情况,核心网络(CN)可以使用AMR-12.2到GSM-EFR分组(<16kbps)的分组传送而不是传送64kbps的PCM流。
此外,相比于汇接编码的语音,编解码语音的质量将得到改善。
而且,潜在地存在总体延迟的降低,因为例如在EFR到AMR-12.2的转换中不需要任何先行缓冲器并且处理延迟将小于代码转换延迟。
附图说明
通过参照结合了附图的下列描述,可以充分理解本发明及其目的和优点,其中:
图1为包括代码转换功能的通信系统的示意图;
图2A和B为图解说明了被解码的帧的示图;
图3为依照本发明方法的一个实施例的主要步骤的流程图;
图4A-C为图解说明了被解码的语音的例子的示图;
图5A为图解说明了分别在GSM-EFR和AMR-12.2中的DTX期间的SID结构的时间图;
图5B为图解说明了在DTX期间用于从GSM-EFR到AMR-12.2的代码转换的SID结构转换的时间图;
图5C为图解说明了在DTX期间用于从AMR-12.2到GSM-EFR的代码转换的SID结构转换的时间图;
图6A为从GSM-EFR到AMR-12.2的代码转换器实施例的主要部分的框 图;
图6B为从AMR-12.2到GSM-EFR的代码转换器实施例的主要部分的框图。
具体实施方式
本发明涉及在具有相似核心压缩方案的编码方案之间的代码转换。通过“核心压缩方案”,应当理解基本编码原理的类型、所使用的参数、比特率以及所采用的语音帧的基本帧结构。在下面讨论的示例性实施例中,所述两个编码方案是AMR-12.2(依照3GPP/TS-26.071)和GSM-EFR(依照3GPP/TS-06.51)。这两种方案都利用了12.2kbit/s ACELP编码。此外,两个方案都利用了包括被划分成4个子帧的20ms帧的帧结构。语音帧中的比特分配也是相同的。因此,普通语音帧的比特流从一个编码方案到另一个编码方案是兼容的,即这两个语音编码方案对于包含编码的语音的帧是比特流兼容的。换言之,包含编码的语音的帧在这两个语音编码方案之间是可互操作的。然而,这两个编码方案对于采用的非语音帧具有不同的参数量化器。这些帧称为SID帧(静音描述)。当对于给定编码方案激活VAD(声音活动检测)/DTX(非连续传输)时,使用SID帧。
具有相似核心压缩方案的一对编解码器的另一个例子是G.729(ITU-T8kbps)编解码器和AMR 7.4(DAMPS-EFR)编解码器,因为它们具有相同的子帧结构,共享大多数编码参数和量化器,例如基频滞后和固定的革新码书结构。此外,它们还共享相同的基频和码书增益重构点。然而,LSP(线谱对)量化器有一定的区别,帧结构不同并且规定的DTX功能不同。一对相关的编码方案的再一个例子是PDC-EFR编解码器和AMR67编解码器。它们仅在DTX定时和SID传送方案方面有区别。
另外,具有的帧在比特分配或帧大小方面稍有不同的编解码器也可以是本发明的主题。例如,帧长度为另一相关编解码器的帧长度的整数倍的编解码器也可以适用于实现本发明的构思。
因此,本领域技术人员应当认识到,本发明的原理不应当局限于所述示例性实施例的特定编解码器,而是可以普遍适用于具有相似核心压缩方案的任何编解码器对。
图1图解说明了包括两个通信系统2和3的电信系统1。通信网络3 为使用AMR-12.2声音编解码器的3G(UTRAN)网络。通信网络2为使用GSM-EFR声音编解码器的2.xG(GERAN)网络。当适用于在通信网络2中进行通信的终端4应当与适用于在通信网络3中进行通信的终端5通信时,必须在沿着通信路径11的某个地方执行代码转换。可以将GSM-EFR到AMR-12.2代码转换器6和AMR-12.2到GSM-EFR代码转换器7设置在通信网络2的接口节点8中,这导致依照AMR-12.2编码的语音在两个通信网络2、3之间传输。可替换地,也可以将代码转换器6、7共同设置在通信网络3的接口节点9中,这导致依照GSM-EFR编码的语音在两个通信网络2、3之间传输。也可以将代码转换器6和7设置在各自的接口节点8、9中或者设置在这两个节点中,由此被传送的语音帧可以依照任一种语音编码方案来进行转换。
AMR是用于提供多速率编码的标准化系统。有8种范围从4.75kbit/s到12.2kbit/s的不同比特率可用,其中记为AMR-12.2的最高比特率模式在本公开中受到特别关注。这个自适应多速率语音编码器基于ACELP技术。5ms的先行用于允许在所有8种模式之间进行切换。表1中示出了对于AMR-12.2模式的比特分配。
为了进行LP分析和量化,对于每个帧计算两个LP滤波器。利用1阶MA预测LSF残余的分裂矩阵量化来联合量化这些滤波器。
表1 对于AMR-12.2和GSM-EFR帧的比特分配
参数 | 子帧1 | 子帧2 | 子帧3 | 子帧4 | 总计 |
LSF | 38 | ||||
自适应CB | 9 | 6 | 9 | 6 | 30 |
自适应增 益 | 4 | 4 | 4 | 4 | 16 |
代数CB | 35 | 35 | 35 | 35 | 140 |
代数增益 | 5 | 5 | 5 | 5 | 20 |
AMR-12.2采用了自适应码书增益的直接量化以及代数码书增益的MA预测量化。标量开环量化用于自适应和固定码书增益。
AMR-12.2还提供了DTX(非连续传输)功能,用于在没有语音活动的时段期间节省资源。低速率SID消息以低的更新率被发送以便通知背景噪声的状态。在AMR-12.2中,发送第一消息“AMR SID_FIRST”,其除了应当启动噪声注入之外,不包含任何频谱或增益信息。该消息之后是 包含绝对量化的LSP和帧能量的“AMR SID_UPDATE”消息。“AMRSID_UPDATE”消息随后每8帧传送一次,但是不与网络超帧结构同步。当要重新启动语音编码时,将语音增益编解码器状态设置成基于最后的“AMR SID_UPDATE”消息中的舒适噪声能量的动态值。
GSM-EFR也是标准化的系统,其增强GSM的通信以便包括12.2kbit/s的比特率。GSM-EFR语音编码器也基于ACELP技术。没有使用先行。比特分配与AMR-12.2中的相同,如上表1中所示。
GSM-EFR也提供了DTX功能。在这里,SID消息也被发送来通知所述状态,但是具有另一种编码格式和另一种定时结构。在每个语音到噪声转变中的初始SID帧之后,每24帧规则地传送一次单一类型SID帧,其与GERAN超帧结构同步。语音帧LSP和增益量化表被再度用于SID消息,但是帧增益和量化的LSP的德耳塔(delta)(差分)编码用于采用的非语音帧。当要重新启动语音编码时,将语音增益编解码器状态重置为固定值。
由上可知,AMR-12.2和GSM-EFR编解码器之间有着惊人的相似性。至少对于包含编码的语音的帧而言,AMR-12.2语音编码方案和GSM-EFR语音编码方案的核心压缩方案是比特流兼容的。然而,存在在这两种编解码器之间进行代码转换时必须加以考虑的区别。在GSM-EFR和AMR-12.2中,对于舒适噪声(CN)谱和能量参数进行不同地量化。如上所述,EFRSID包含LSP和编码增益,两者都根据在7帧DTX延迟释放(hangover)时段期间收集的参考数据来进行德耳塔量化。AMR SID_UPDATE包含绝对量化的LSP和帧能量,而AMR SID_FIRST不包含任何频谱或增益信息,它只是有关应当启动噪声注入的通知。
另一个重要的区别是在DTX时段期间不同的编码增益预测器重置机制。GSM-EFR编码器将预测器状态重置成常量,而AMR编码器根据最近的SID_UPDATE消息中的能量来设置初始预测器状态。其原因在于,如果按照GSM-EFR方式来重置状态,那么更低速率的AMR模式没有足够的比特用于初始语音帧的增益量化。
在GSM-EFR到AMR-12.2转换中,为了对德耳塔量化的GSM-EFR CN参数进行代码转换,首先必须对其进行解码。代码转换器因而必须包括完整的GSM-EFR SID参数解码器。但是不需要合成。然后,可以用AMR-12.2量化器直接对解码的LSF/LSP进行量化。为了从GSM-EFR CN增益转换 到AMR CN帧能量,还必须估计LPC合成滤波器的增益。
在为了研究GSM-EFR和AMR-12.2之间的互操作性而进行的测试中,发现了令人心烦的噪声脉冲串。这些令人心烦的噪声脉冲串主要出现在话音的开始处,例如在DTX时段的末尾处。因此,推断从GSM-EFR到AMR-12.2的代码转换的主要问题在于不同的编码增益预测器状态的初始化。在DTX期间,AMR-12.2预测器总是被初始化成相等或者大于GSM-EFR的值。只有在远程编码器舒适噪声级别足够低时,它们才被初始化成相同的值。
图2A和2B图解说明了信号的事件过程。图2A代表依照GSM-EFR编码方案编码和解码的语音信号,即正常的EFR编码并且接着正常的EFR解码。语音信号已经存在。在时刻t1,开始静音时段,即只有噪声的片段。GSM-EFR编码通过发送SID消息来启动DTX过程。在噪声片段的中间,将单一帧分类成语音帧。在时刻t2,由编码器的声音活动检测算法确定的帧类型于是指示帧包含普通语音,但是声音波形中不存在实际的语音。时刻t2处语音开始的指示导致重新启动普通的GSM-EFR编码。
图2B示出了在正常的EFR编码之后是对于相同噪声片段的正常AMR122解码的情况下将出现的能量脉冲串。图2B因而代表与图2A中相同的信号,该信号也依照GSM-EFR来编码,但是现在是依照AMR-12.2编码方案来解码的,所述AMR-12.2编码方案被调节以便符合GSM-EFRDTX功能。因此,在连续语音编码期间(即时刻t1之前)的语音信号被正确解码。在静音期间,该被解码的信号取决于所执行的特定SID装置的调节,但是将相对容易地给出合理的背景噪声级别,如图2B所示。然而,恰好在语音指示时,即在时刻t2处,出现了大的能量脉冲串,在所述大的能量脉冲串之后被解码的信号返回到对应于由GSM-EFR解码本身实现的级别的更精确的级别。该能量脉冲串实际上与静音时段之后的第一语音帧的出现关联。
图4A和4B中描绘了类似的情况,其图解说明了当在编解码方案之间使用不同的互操作时语音开始的例子。在图4A中,时刻t2处语音的开始被图示为由GSM-EFR进行编码和解码。在图4B中,对应的信号由GSM-EFR编码,但是依照AMR-12.2来解码,而没有任何进一步的修改。这些不同的初始化方案的结果在于,除非CN(舒适噪声)级别足够低,否则话音脉冲串(即第一帧)中初始(例如前4个)子帧的去量化编码 增益将非常高。这在图4B中可以看作信号的饱和。在测试期间所观察到的最坏的情况中,被解码增益高达18倍(25dB),导致非常响的、令人心烦的并且有时有害的声音尖峰。
这种最坏的情况在GSM-EFR编码器输入背景噪声信号具有非常高的能量使得AMR-12.2预测的值将基于状态值“0”的时候出现。该状态从被转换的GSM-EFR SID信息中导出。GSM-EFR预测器状态值为“-2381”,其是从在第一传送的SID帧中重置的GSM-EFR中得到的。
这种状态差异的声学效果通常是,在AMR-12.2合成中听到约为10ms长的小噪声脉冲串“blipp”,参见图2B。然而,偶尔当第一语音子帧包含浊音语音的时候,所述效果几乎是使得合成滤波器饱和的爆炸声,以及潜在地甚至对听众耳朵有害的合成,如图4B所示的。从声音质量的角度来看,这两种效果都是不能接受的。
在另一个方向即AMR-12.2到GSM-EFR方向的代码转换中,增益差异将沿相反的方向。于是,增益值将在第一帧中降低,但是在第二帧的第一子帧中将是正确的。结果是语音的开始有衰减,这也是不希望的。AMR-12.2到GSM-EFR的合成具有更低的启动幅度,但是波形仍然与GSM-EFR合成匹配得很好。
在认识到令人心烦的语音伪像的原因起源于在能量参数中出现的状态失配时,就可以采取行动,所述能量参数例如上述实施例中的增益因子。首先,应当识别出状态失配出现的时机。其次,当出现这种失配时,应当调节该能量参数来减少可察觉的伪像。这样的调节优选地应当在状态失配出现之后在一个或多个帧中进行。
可以按照不同的方式来识别状态失配的出现。一种方法是跟踪语音特征的演变并且识别预定语音演变何时出现。预定语音演变可以例如是像在上述所研究情况中的语音类型转变。上述特定情况可以定义为在一定时段的语音静默之后语音开始的预定语音演变。
图3为图解说明了依照本发明方法的一个实施例的主要步骤的流程图。该过程在步骤200中开始。在步骤210中,第一语音编码方案的语音帧用作第二语音编码方案的语音帧。第一语音编码方案和第二语音编码方案对于语音帧使用了相似的核心压缩方案。在步骤212中,识别在所述第一语音编码方案和所述第二语音编码方案之间能量参数中的状态失配的出现。在这个实施例中,步骤212包括另外的部分步骤214和 216。在步骤214中,跟踪语音的演变。在步骤216中,确定例如预定语音类型转变之类的预定语音演变是否出现。特别地,可以检测出在一定时段的语音静默之后语音的开始。如果没有发现所述预定语音演变,那么结束该过程或者像在下面描述的那样重复该过程。如果发现了所述预定语音演变,那么该过程继续到步骤218。在步骤218中,在状态失配出现之后在第二语音编码方案的帧的至少一个帧中调节能量参数。该过程在步骤299中结束。在实践中,只要存在待处理的语音帧,就重复该过程,如箭头220所示。
状态失配的出现还可以通过更直接的方法来检测。可以对由第一语音编码方案编码的语音的能量参数进行解码。同样,可以对使用第二编码方案的语音的能量参数进行解码。通过比较按照这种方式获得的能量参数,太大的差异意味着存在状态失配。然后,可以对于每个子帧连续地执行增益调节,直到检测的状态失配可以忽略不计为止。
假定通过监视语音静默时段之后的语音的启动来检测状态失配。另外假定从GSM-EFR到AMR-12.2的代码转换。于是,调节增益的一种解决方案会是修改每个话音脉冲串中语音帧的第一耦合中的编码增益参数,直到AMR-12.2解码器增益预测器状态与GSM-EFR编码器状态会聚为止。为此,代码转换器必须跟踪GSM-EFR和AMR-12.2的预测器状态二者。按照语音质量观点,最佳的方法然后计算用于AMR-12.2的新编码增益参数,其准则是去量化的增益应当等于假定的GSM-EFR解码器中的去量化的增益。实验表明,在AMR-12.2预测器会聚并且等于GSM-EFR预测器之前,一般需要调节2到5个语音帧。
这种方法将使得AMR-12.2解码器与GSM-EFR具有近乎完美的增益匹配。然而由于量化器饱和的原因,仍然会出现少许的失配。如果在话音脉冲串中的第一子帧中增益量化器饱和了并且先前的CN级别足够高,那么这一般发生在话音脉冲串的第二子帧中。于是,由于预测器中的值更高,第一AMR-12.2子帧的编码增益将显著降低。然后,将这个低值移位到AMR-12.2解码器的预测器存储器中,但是另一方面,所述假定的GSM-EFR解码器移位到最大值(饱和的量化器)。于是在第二子帧中,AMR-12.2突然具有更低的预测,因为预测器存储器中最新的值具有最高的强度。然后如果第二子帧的增益参数太高,那么随着代码转换器设法补偿预测器的失配,新的AMR-12.2增益参数将会饱和。因此,解码的 编码增益将会太低。
这种量化饱和效应几乎不能察觉,但是可能的改进将是同时对于两个或多个子帧计算AMR编码增益,然后能够使得总体能量对于更长的积分时段是正确的。
上述增益的“近乎完美的”匹配要求对两种语音编码方案的预测器状态进行监视。在大多数情况下,可获得不那么复杂但是次优的解决方案。在一个实施例中,通过指标域中的预定因子来简单地调节编码增益指标。在实验中,已经测试了只对第一子帧的能量参数一分为二以便消除过度预测,即在指标域中将能量参数降低50%。然后,比特域操作可以保证大大地降低增益,这种操作在大多数情况下会是足够的。在编码的比特流上容易实现能量参数指标降低因子为2n,其中n为大于0的整数。在实践中的确发现,与理想情况相比,这种简化的增益转换算法工作时具有非常小的质量退化。
另一种指标域方法将是利用至少~15个指标步骤来一直降低第一增益指标值,这对应于大约-22dB的状态降低。甚至将能量参数设为零也是可能的,由此在出现状态失配之后抑制了所述第一帧。
另一种方法是只丢弃每个话音脉冲串中的第一语音帧。如果利用小的值来初始化GSM-EFR增益预测器状态,那么第一输入语音帧中的增益指标通常将是相当高的。结果是对于第二语音帧的预测增益比对于第一语音帧的预测增益高。因此,通过对于AMR-12.2流丢弃完整的第一语音帧,AMR-12.2解码器对于其第一语音帧(即对于第二GSM-EFR语音帧)具有太低的而不是太高的预测增益。
这种方法在最初20ms内对于波形具有显著的影响。非常令人惊奇的是,语音的主观退化相当低。但是,每个话音脉冲串中的初始浊音的确在一定程度上释放了其“冲击”。
调节过程还可以包括在状态失配出现之前的帧期间根据基于舒适噪声能量的估计来改变能量参数。该调节也可以根据外部能量信息来进行。
调节步骤的定时还可以依照不同的方法来实现。一般情况下,对状态失配出现之后的第一帧进行调节。不过,可以对于每个子帧单独地执行调节步骤,或者对于整个帧共同地执行调节步骤。优选地,在头一帧或头两帧中将编码增益降低预定指标倍数,以便例如使得AMR-12.2解码 器中的预测增益降低。然而,在更复杂的方法中,实际增益失配的测量可以确定何时跳过调节步骤。
上面进行的讨论假设了从GSM-EFR到AMR-12.2的代码转换。原则上,同样的原理对于从AMR-12.2到GSM-EFR的代码转换也是有效的。在这样的情况下,能量参数的减小通常不是有用的,因为GSM-EFR的能量参数被低估了。GSM-EFR的预测器总是被初始化成比AMR-12.2更小或者相等的值,并且从而预测增益总是更小或相等。其效果在于,对于话音脉冲串中第一语音帧的被解码增益将会太低。在大多数情况下,这种退化在单次谈话情况中几乎不能被察觉。
即使可能不是必须的,也的确可能通过对于从AMR-12.2到GSM-EFR的代码转换调节第一语音帧中的编码增益来改善所述代码转换。在这种情况下,指标域中的任何直接调节都将导致增益指标的增大。
图4C图解说明了当应用本发明时的典型的事件过程。与图4A和4B中相同的信号被提供。图4C代表与图4A中相同的语音信号,该语音信号也依照GSM-EFR来编码,但是现在依照AMR-12.2编码方案来解码,所述AMR-12.2编码方案被调节成符合GSM-EFR DTX功能并且包括上述依照本发明的增益调节例程。容易看出,话音的开始按照比图4B在的情况可靠得多的方式来重构。通过在静音时段之后将第一语音帧的第一子帧中的增益指标降低2倍来调节增益。
由于GSM-EFR和AMR-12.2的语音帧比特流可互操作并且活动时段开始处的增益问题可以通过上述方法来解决,因此能够实现有效的转换。这两个编解码方案之间的剩余的大的差异与SID信息有关。然而,可以优选地在SID帧的参数域中执行SID信息的代码转换,以及SID信息(即SID量化(率)和时机)的定时的调节。
图5A在上部图解说明了对于GSM-EFR编码的DTX时段的时间图。在时刻t3之前存在语音。然后,GSM-EFR编码器利用第一SID帧标记DTX时段的开始,其中第一SID帧直接在最后的语音帧之后。规则的SID帧以24帧的时段来发送,其与GERAN空中接口测量报告同步。在图5A中,GERAN空中接口测量报告出现在时刻t4和t5。这意味着根据对于语音结束和GERAN同步的检测时刻,在第一SID帧和第二SID(规则SID)之间发送的时间可以在0和23帧之间变化。远程SID同步是利用称为TAF(时间对准标志)的状态标志来执行的。
在图5A的下部,图解说明了对于AMR-12.2编码的DTX时段的时间图。AMR-12.2编解码器在时刻t6检测到语音结束后立即发送初始的SID_FIRST帧。然后在3帧之后的时刻t7处,发送SID_UPDATE帧。之后,每8帧重复一次SID_UPDATE帧。
当执行图5A所图解说明的两个编码方案之间的代码转换时,有必要执行SID消息速率和定时的转换。换言之,所述代码转换涉及将第一语音编码方案的静音描述帧中的静音描述参数转换成第二语音编码方案的静音描述帧中的静音描述参数的功能。
首先考虑从GSM-EFR到AMR-12.2的代码转换。这在图5B中进行了示意性的图解说明。输入的语音依照顶部时间线来编码。由于从语音到背景噪声的转变,SID帧出现在时刻t3。随后,像GERAN所决定的,附加的规则SID帧出现在时刻t4和t5。在时刻t3,DTX时段的第一指示通过初始GSM-EFR SID帧的接受而接收。GSM-EFR SID帧的内容被存储,并且AMR SID_FIRST帧依照AMR-12.2编码方案来生成。由于在AMR-12.2中舒适噪声更新率更快,所述转换算法必须具有其自身的AMR噪声更新同步状态机。因此,AMR-12.2的SID_UPDATE帧在SID_FIRST帧之后3个帧的时刻t6处创建。来自初始GSM-EFR SID的SID参数被转换并且在SID_UPDATE帧中被发送。用于另外的AMR-12.2 SID_UPDATE帧的简单解决方案是连续地保存来自最近接收的GSM-EFR SID的SID参数并且只要应当发送AMR-12.2 SID_UPDATE帧时就重复它们。但是,与GSM-EFR解码器将提供的能量轮廓相比,该方法对于代码转换的AMR-12.2舒适噪声将得到稍微不那么平滑的能量轮廓。其原因在于解码器中的参数重复和参数插值。该效果几乎不能察觉,但是可以通过对AMR-12.2SID_UPDATE帧中的能量参数进行滤波并且从而创建更平滑的变体来潜在地加以消除。
现在,可替代地考虑从AMR-12.2到GSM-EFR的代码转换。这在图5C中进行了示意性的图解说明。输入的语音依照底部时间线来编码。SID_FIRST帧出现在语音结束处的时刻t3。这是DTX时段开始的指示。
为了能够对GSM-EFR SID参数进行德耳塔量化,代码转换器需要按照与GSM-EFR解码器相同的方式根据DTX释放延迟时段计算CN参考。这意味着在语音时段期间更新能量值和LSF历史并且具有状态机来确定何时已经添加了释放延迟时段。遗憾的是,从复杂度的观点来看,在正常 操作情况下,在SID_FIRST和SID_UPDATE之间使用的能量值基于AMR-12.2合成滤波器输出(在后置滤波之前)。因此,AMR-12.2到GSM-EFR的转换需要合成非后置滤波的语音值以便更新其能量状态。可替换地,可以基于LPC增益、自适应码书增益和固定码书增益的知识来估计这些能量值。此外,AMR-12.2错误隐藏单元使用合成的能量值来更新其背景噪声检测器。
可以通过计算滤波器增益来将AMR-12.2 SID_UPDATE能量转换成GSM-EFR SID增益。由于在SID_FIRST帧中没有CN参数被发送,因此代码转换器必须按照在SID_FIRST被接收时AMR-12.2解码器所做的相同方式来计算第一GSM-EFR SID的CN参数。然后,可以将SID_FIRST帧转换成初始GSM-EFR SID帧。因此,估计用于输入的AMR-12.2 SID_FIRST帧的静音描述符参数并且将估计的静音描述符参数量化成第一GSM-EFR静音描述。在会话中最初GSM-EFR SID的创建启动了本地TAF计数器。第一GSM-EFR SID帧的实际GERAN空中接口传输将通过远程下行链路发送器中的功能与远程GERAN TAF同步。远程下行链路发送器负责存储最近的SID帧并且与实际远程TAF同步(与测量报告同步)地发送它。由于代码转换器TAF一般不与远程GERAN TX TAF对准,因而在接收终端处对于GSM-EFR SID出现了延迟Δt,所述GSM-EFR SID基于本地TAF来发送。在最坏的情况下,规则SID在发送之前可以被延迟高达23个帧。
连续的SID_UPDATE不能被直接转换,而是,最近的SID参数(频谱和能量)被存储。然后,代码转换器保持本地TAF计数器来确定何时量化最近的参数并且创建新的GSM-EFR SID。最后,执行对于最近被存储的被接收静音描述参数的量化,以便将其包含在新的GSM-EFR静音描述帧中。
下面讨论本发明的另一方面。这里,噪声的能量级别是由于CN参考矢量状态方面的失配引起的问题。然而,这个方面也利用了状态失配的识别以及依照所述基本原理的调节。这个特定实施例的目的是校正舒适噪声级别而不是合成语音。如果在呼叫开始之后的一段时间启动转换,一般会出现这些问题。通过这种异步启动,在必须转换SID帧之前不能保证构造出CN参考矢量。对于两个方向的转换,几乎会出现相同的问题。
异步启动的严重性在很大程度上取决于每隔多久转换算法被重置。如果对于每次空中接口切换都重置转换算法,那么问题的情况将频繁出现并且认为问题是严重的。如果另一方面只是例如出于源信号有关的原因而进行重置,那么很可能会认为退化是可以忽略不计的。例如每次执行DTMF音调插入时,情况会是这样。
首先,处理了在语音期间启动代码转换的问题。如果启动代码转换时存在的话音脉冲串持续长的时间,使得能够更新CN参考矢量,那么就不会有问题。否则,问题将与在DTX期间启动的问题相似,这在下面进一步加以描述。采用50%的平均声音活动因子(VAF),这将与静音或背景噪声期间的启动一样普通。
现在,转到DTX时段或背景噪声时段期间的启动。这是在到达代码转换器的初始帧序列为跟随了规则SID或SID_UPDATE帧的任意数量的NO_DATA时存在的情况。当最初的规则SID或SID_UPDATE帧到达代码转换器时,GSM-EFR CN参考矢量将仍然处于其初始状态,导致被代码转换的SID(例如GSM-EFR或AMR-12.2)将在AMR-12.2的情况下获得非常低的增益或能量。对于被代码转换的所有连续SID帧来说,一直存在相同的情况,直到语音时段已经过去,该语音时段对于GSM-EFR CN参考矢量的更新时间足够长。
存在解决这个问题的几种方法。一种可能是不对任何SID信息进行代码转换,直到已经真正更新了CN参考矢量。如果解码器没有收到任何SID,那么它在进入DTX消音状态之前将从先前接收的数据中持续地生成噪声。在AMR-12.2到GSM-EFR代码转换的情况下,这种方法在消音出现之前将保持噪声级别高达480ms的更长时间。另一方面,这种方法将消音到完全静音,而错误的SID将至少留下非常低的噪声最低限度(noise floor)。GSM-EFR到AMR-12.2代码转换将表现出相似的行为方式。
另一种方法是将上面给出的方法与SID代码转换相结合。如果初始输入为NO_DATA或者SID,那么可以为输入的语音帧等待大约400ms,而不造成任何消音。然后,如果开始对输入的SID进行代码转换,那么至少避免了背景噪声的总体消音。
然而,确保解码器真正合成正确的噪声级别的可靠方式是生成语音帧,直到已经更新了解码器CN参考矢量。通过解码SID帧或者通过窥 视(peek)TFO情况中可用的PCM流,这对于AMR-12.2到GSM-EFR代码转换是直接的,其在下面将进一步详加讨论。启动GSM-EFR到AMR-12.2代码转换器时,不必使得CN参考矢量能够解码GSM-EFR CN数据。因此,窥视PCM流是获得正确的噪声级别再现的唯一方式。
对于TFO(无汇接操作)情况,缓解GSM-EFR解码器以及GSM-EFR到AMR-12.2转换器的异步启动问题的一种可能的解决方案是将RXDTX处理机状态的子集从GSM-EFR解码器转移到GSM-EFR到AMR-12.2转换器。在相反方向(AMR-12.2到GSM-EFR)下,类似的转移也是可能的。
可以对由于第二个问题(噪声级别)造成的原始问题(语音能量脉冲串)进行观测。在其中进入代码转换器的初始帧序列为跟随了语音帧的少量NO_DATA帧的情况下,不可能使用高级的编码增益调节算法,因为代码转换器不清楚编码器和解码器的增益预测器状态。然而,通过假设最坏的情况并且将AMR预测器初始化成最大初始值,可以保证被解码的增益至少低于目标增益。
对于GSM-EFR到AMR-12.2转换,长静音间隔的问题可以通过实现热启动TFO解决方案来缓解。然后,将从GERAN输入的数据作为GSM-EFR流而传输。于是,GSM-EFR到AMR-12.2 SID转换器优选地可以利用来自GSM-EFR解码器的输出TFO PCM数据来启动。热启动GSM-EFR到AMR-12.2SID转换器所需的变量的最小集合是参考增益状态、合成增益以及GSM-EFR错误隐藏中使用的增益。对于完整的热启动,也会需要LSF参考矢量变量以及用于参考增益与参考LSF的缓冲器和插值计数器。
对于AMR-12.2到GSM-EFR转换,情况是类似的。这里,将从UTRAN或GERAN输入的数据作为AMR-12.2流而传输。对于AMR-12.2SID_UPDATE帧的绝对CN能量量化应当仅仅使得传输指示延迟释放时段的结束的变量是必要的。使用SID_UPDATE帧中的能量信息使得设置EFR状态的合理估计成为可能。为了进一步改进该解决方案,还可以等待第二AMR_SID_UPDATE以提供一定程度上更加安全的能量估计。
图6A为从GSM-EFR到AMR-12.2的代码转换器6实施例的主要部分的框图。在输入端20处接收依照GSM-EFR编码方案编码的帧。在输入控制部分41中对这些帧进行分析。将依照GSM-EFR语音编码方案的所有帧转送到识别器42,以便依照上面深入讨论的过程来识别编码增益中状态失配的出现。将语音帧转送到增益调节器部分43,其中优选地依照上 面讨论的过程之一来调节编码增益参数。如果在识别器42中识别出状态失配,则执行增益调节,并且该增益调节优选地在一个或一些帧期间持续。将可能带有被调节增益参数的语音帧提供给输出控制部分44,从该输出控制部分44将帧发送到输出端30。依照本发明,可以认为这些帧是由AMR-12.2编码方案编码的。从而提供了用于将GSM-EFR语音编码方案的语音帧用作AMR-12.2语音编码方案的语音帧的装置45,作为识别器42、增益调节器部分43以及输入控制部分41和输出控制部分44的至少一部分。
如果识别器42利用直接检测方法,那么该识别器依次包括:用于由GSM-EFR语音编码方案编码的语音的能量参数的解码器;用于利用AMR-12.2语音编码方案的语音的能量参数的解码器;以及连接到这些解码器的比较器,用于比较这些能量参数。
优选地,语音代码转换器6还包括SID转换器46,该SID转换器46也被设置成从来自输入控制部分41的输入流中接收所有帧。SID转换器46被设置用于将第一GSM-EFR SID帧转换成AMR-12.2 SID_FIRST帧。将最近接收的GSM-EFR SID帧的SID参数存储在存储器48中,并且无论何时要发送AMR SID_UPDATE帧,则将所述SID参数用于SID参数到AMR-12.2 SID_UPDATE帧的转换。优选地,SID转换器46附加地包括:滤波器47,用于对AMR SID_UPDATE帧的能量参数进行滤波;以及量化器。输出控制部分44从增益调节器部分43接收语音帧并且从SID转换器46接收AMR-12.2 SID(SID_FIRST、SID_UPDATE)帧。输出控制部分44还包括定时控制装置和用于NO_DATA帧的发生器。
图6B为从AMR-12.2到GSM-EFR的代码转换器7实施例的主要部分的框图。在输入端21处接收依照AMR-12.2编码方案编码的帧。代码转换器7的大多数部分与图6A的代码转换器6中的部分类似,并且不进一步进行讨论。但是,在输出端31处发送用于认为是依照GSM-EFR而编码的帧。
语音代码转换器7的SID转换器46被设置用于将AMR-12.2 SID帧转换成GSM-EFR SID帧。AMR-12.2 SID_FIRST帧被转换成第一GSM-EFR SID帧。SID转换器46将从AMR SID_UPDATE帧中接收的SID参数存储在存储器48中,该SID转换器也存储从所接收的AMR SID_FIRST帧中得到的被解码SID参数。TAF状态机49保留本地TAF状态。控制部分50使 用TAF状态机49的TAF状态来确定何时将从SID转换器46发送新的GSM-EFR SID帧。控制部分50启动从存储器中取出被存储的SID参数到估计器51,其中对诸如能量值和LSF之类的SID参数进行估计。将被估计的SID参数转送给量化器52,该量化器被设置成对要包含在新的GSM-EFR SID帧中的最近SID参数进行量化。
上述实施例应当被理解为本发明的一些说明性实例。本领域技术人员应当理解,在不脱离本发明的范围的情况下可以对这些实施例进行各种修改、组合和变化。特别地,可以将不同实施例中的不同部分解决方案组合在技术上可能的其他结构中。但是,本发明的范围是由随附的权利要求来限定的。
参考文献
美国专利申请2003/0177004
美国专利6260009
3GPP/TS-26.071
3GPP/TS-06.51
Claims (50)
1.用于将语音从第一语音编码方案代码转换到第二语音编码方案的方法,所述语音编码方案使用相似的用于语音帧的核心压缩方案,所述相似的核心压缩方案具有相同的基本编码原理以及相同的子帧结构,所述方法包括步骤:
将所述第一语音编码方案的语音帧用作(210)所述第二语音编码方案的语音帧;
识别(212)在所述第一语音编码方案的能量参数和所述第二语音编码方案的能量参数之间的状态失配的出现;以及
在所述状态失配的出现之后调节(218)所述第二语音编码方案的所述能量参数。
2.依照权利要求1所述的方法,其中所述调节步骤(218)包括在所述状态失配出现之后在所述第二语音编码方案的帧的至少一个帧中调节所述第二语音编码方案的所述能量参数。
3.依照权利要求1或2所述的方法,其中所述第一语音编码方案和所述第二语音编码方案的所述核心压缩方案对于包含编码的语音的帧来说是比特流兼容的。
4.依照权利要求1或2所述的方法,其中所述识别步骤(212)包括确定(216)预定语音演变的出现的步骤。
5.依照权利要求4所述的方法,其中所述预定语音演变是语音类型转变。
6.依照权利要求5所述的方法,其中所述预定语音演变是在一定时段的语音静默之后语音的开始。
7.依照权利要求1或2所述的方法,其中所述识别步骤(212)依次包括步骤:
对由所述第一语音编码方案编码的语音的第一能量参数进行解码;
对使用所述第二语音编码方案的所述语音的第二能量参数进行解码;以及
比较所述第一能量参数和所述第二能量参数。
8.依照权利要求7中所述的方法,其中所述调节步骤(218)包括将所述第二语音编码方案的所述能量参数改变预定因子的步骤。
9.依照权利要求8所述的方法,其中所述预定因子是指标域中的预定因于。
10.依照权利要求8所述的方法,其中所述调节步骤(218)包括步骤:根据所述第一语音编码方案编码的语音的所述第一能量参数和所述第二语音编码方案编码的语音的所述第二能量参数之间的比较来改变所述第二语音编码方案的所述能量参数。
11.依照权利要求1-2中任何一项所述的方法,其中对于所述状态失配出现之后的最初n个子帧执行所述调节步骤(218),其中n>0。
12.依照权利要求10所述的方法,其中对于每个子帧连续地执行所述调节步骤(218),直到所述状态失配可以忽略不计为止。
13.依照权利要求1-2中任何一项所述的方法,其中所述调节步骤(218)包括步骤:在所述状态失配出现之前的帧期间根据基于舒适噪声能量的估计来改变所述第二语音编码方案的所述能量参数。
14.依照权利要求1所述的方法,其中所述调节步骤(218)包括基于外部能量信息改变所述第二语音编码方案的所述能量参数的量化状态的步骤。
15.依照权利要求1-2中任何一项所述的方法,包括另外的步骤:将所述第一语音编码方案的静音描述帧中的静音描述参数转换成所述第二语音编码方案的静音描述帧中的静音描述参数。
16.依照权利要求1-2中任何一项所述的方法,其中所述第一语音编码方案是GSM-EFR并且所述第二语音编码方案是AMR-12.2。
17.依照权利要求16所述的方法,其中所述调节步骤(218)包括将所述第二语音编码方案的所述能量参数指标降低因子为2n的步骤,其中n为大于0的整数。
18.依照权利要求16所述的方法,其中所述调节步骤(218)包括将所述第二语音编码方案的所述能量参数设置为0的步骤,由此抑制所述状态失配出现之后的第一子帧。
19.依照权利要求16所述的方法,包括步骤:
将第一GSM-EFR静音描述帧转换成AMR SID_FIRST帧。
20.依照权利要求19所述的方法,包括另外的步骤:
无论何时要发送AMR SID_UPDATE帧,都将最近接收的GSM-EFR静音描述帧的静音描述参数用作AMR SID_UPDATE帧的静音描述参数的基础。
21.依照权利要求20所述的方法,包括另外的步骤:
对所述AMR SID_UPDATE帧的能量参数进行滤波。
22.依照权利要求1-2中任何一项所述的方法,其中所述第一语音编码方案是AMR-12.2并且所述第二语音编码方案是GSM-EFR。
23.依照权利要求22所述的方法,包括步骤:
将AMR SID_FIRST帧转换成第一GSM-EFR静音描述帧。
24.依照权利要求23所述的方法,其中转换步骤依次包括步骤:
估计用于输入的AMR SID_FIRST帧的静音描述符参数;以及
将所述估计的静音描述符参数量化成第一GSM-EFR静音描述。
25.依照权利要求23所述的方法,包括另外的步骤:
存储从AMR SID_UPDATE帧中接收的静音描述参数;
保留本地TAF状态;
确定何时将从所述TAF状态发送新的GSM-EFR静音描述帧;
对要包含在所述新的GSM-EFR静音描述帧中的最近的所述被存储的所接收的静音描述参数进行量化。
26.语音代码转换器(6;7),其将帧从第一语音编码方案代码转换到第二语音编码方案,所述语音编码方案使用相似的用于语音帧的核心压缩方案,所述相似的核心压缩方案具有相同的基本编码原理以及相同的子帧结构,所述语音代码转换器包括:
用于将所述第一语音编码方案的语音帧用作所述第二语音编码方案的语音帧的装置(45);
用于识别在所述第一语音编码方案的能量参数和所述第二语音编码方案的能量参数之间的状态失配的出现的装置(42);以及
用于在所述状态失配的出现之后调节所述第二语音编码方案的所述能量参数的装置(43),其连接到所述用于识别的装置(42)。
27.依照权利要求26所述的语音代码转换器,其中所述用于调节的装置(43)被设置用于在所述状态失配出现之后在所述第二语音编码方案的帧的至少一个帧中调节所述第二语音编码方案的所述能量参数。
28.依照权利要求26或27所述的语音代码转换器,其中所述第一语音编码方案和所述第二语音编码方案的所述核心压缩方案对于包含编码的语音的帧来说是比特流兼容的。
29.依照权利要求26或27所述的语音代码转换器,其中所述用于识别的装置(42)包括所述用于确定预定语音演变的出现的装置。
30.依照权利要求29所述的语音代码转换器,其中所述预定语音演变是语音类型转变。
31.依照权利要求30所述的语音代码转换器,其中所述预定语音演变是在一定时段的语音静默之后语音的开始。
32.依照权利要求26或27所述的语音代码转换器,其中所述用于识别的装置(42)依次包括:
所述第一语音编码方案编码的语音的第一能量参数的解码器;
使用所述第二语音编码方案的所述语音的第二能量参数的解码器;以及
连接到所述第一能量参数的所述解码器和所述第二能量参数的所述解码器的比较器,其用于比较所述第一能量参数和所述第二能量参数。
33.依照权利要求26-27中任何一项所述的语音代码转换器,其中所述用于调节的装置(43)包括用于将所述第二语音编码方案的所述能量参数改变预定因子的装置。
34.依照权利要求33所述的语音代码转换器,其中所述预定因子是指标域中的预定因子。
35.依照权利要求32所述的语音代码转换器,其中所述用于调节的装置(43)被设置用于根据所述第一语音编码方案编码的语音的所述第一能量参数和所述第二语音编码方案编码的语音的所述第二能量参数之间的比较来改变所述第二语音编码方案的所述能量参数。
36.依照权利要求33所述的语音代码转换器,其中所述用于调节的装置(43)被设置成改变所述状态失配出现之后的第一子帧中的所述第二语音编码方案的所述能量参数。
37.依照权利要求35所述的语音代码转换器,其中所述用于调节的装置(43)被设置用于对于每个子帧连续地进行操作,直到所述状态失配可以忽略不计为止。
38.依照权利要求26-27中任何一项所述的语音代码转换器,其中所述用于调节的装置(43)包括用于在所述状态失配出现之前的帧期间基于舒适噪声能量来估计能量参数的装置以及用于基于所述估计来改变所述第二语音编码方案的所述能量参数的装置。
39.依照权利要求26-27中任何一项所述的语音代码转换器,进一步包括用于将所述第一语音编码方案的静音描述帧中的静音描述参数转换成所述第二语音编码方案的静音描述帧中的静音描述参数的装置(46)。
40.依照权利要求26-27中任何一项所述的语音代码转换器,其中所述语音代码转换器是GSM-EFR到AMR-12.2语音代码转换器(6)。
41.依照权利要求40所述的语音代码转换器,其中所述用于调节的装置(43)被设置用于将所述第二语音编码方案的所述能量参数指标降低因子为2n,其中n为大于0的整数。
42.依照权利要求40所述的语音代码转换器,其中所述用于调节的装置(43)被设置用于将所述第二语音编码方案的所述能量参数设置为0,由此抑制所述状态失配出现之后的第一子帧。
43.依照权利要求40所述的语音代码转换器,包括用于将第一GSM-EFR静音描述帧转换成AMR SID_FIRST帧的装置。
44.依照权利要求43所述的语音代码转换器,进一步包括无论何时要发送AMR SID_UPDATE帧,都将最近接收的GSM-EFR静音描述帧的静音描述参数用作AMR SID_UPDATE帧的静音描述参数的基础的装置。
45.依照权利要求44所述的语音代码转换器,包括用于所述AMRSID_UPDATE帧的能量参数的滤波器。
46.依照权利要求26-27中任何一项所述的语音代码转换器,其中所述语音代码转换器是AMR 12.2到GSM-EFR语音代码转换器(7)。
47.依照权利要求46所述的语音代码转换器,包括用于将AMRSID_FIRST帧转换成第一GSM-EFR静音描述帧的装置。
48.依照权利要求47所述的语音代码转换器,其中所述用于转换的装置被设置成估计用于输入的AMR SID_FIRST帧的静音描述符参数并且将所述估计的静音描述符参数量化成第一GSM-EFR静音描述。
49.依照权利要求47所述的语音代码转换器,进一步包括:
从AMR SID_UPDATE帧中接收的静音描述参数的存储器(48);
用于保留本地TAF状态的装置(49);
用于确定何时将从所述TAF状态发送新的GSM-EFR静音描述帧的装置(50);
用于对要包含在所述新的GSM-EFR静音描述帧中的最近的所述被存储的所接收的静音描述参数进行量化的装置(52)。
50.电信系统(1),包括依照权利要求26-49中任何一项所述的语音代码转换器(6;7)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SE2005/001800 WO2007064256A2 (en) | 2005-11-30 | 2005-11-30 | Efficient speech stream conversion |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101322181A CN101322181A (zh) | 2008-12-10 |
CN101322181B true CN101322181B (zh) | 2012-04-18 |
Family
ID=38092670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800521991A Expired - Fee Related CN101322181B (zh) | 2005-11-30 | 2005-11-30 | 有效的语音流转换方法及装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8543388B2 (zh) |
EP (2) | EP1955321A2 (zh) |
CN (1) | CN101322181B (zh) |
BR (1) | BRPI0520720A2 (zh) |
WO (1) | WO2007064256A2 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4793539B2 (ja) * | 2005-03-29 | 2011-10-12 | 日本電気株式会社 | 符号変換方法及び装置とプログラム並びにその記憶媒体 |
DE602007010836D1 (de) * | 2007-01-18 | 2011-01-05 | Ericsson Telefon Ab L M | Technik zur steuerung der codec-auswahl entlang einem komplexen anrufpfad |
US7873513B2 (en) * | 2007-07-06 | 2011-01-18 | Mindspeed Technologies, Inc. | Speech transcoding in GSM networks |
DE102008009720A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen |
US8452591B2 (en) * | 2008-04-11 | 2013-05-28 | Cisco Technology, Inc. | Comfort noise information handling for audio transcoding applications |
CN101783142B (zh) * | 2009-01-21 | 2012-08-15 | 北京工业大学 | 转码方法、装置和通信设备 |
CN101662752B (zh) * | 2009-09-14 | 2012-11-28 | 中兴通讯股份有限公司 | 静音帧的转换方法及装置 |
US8521520B2 (en) * | 2010-02-03 | 2013-08-27 | General Electric Company | Handoffs between different voice encoder systems |
EP2572499B1 (en) * | 2010-05-18 | 2018-07-11 | Telefonaktiebolaget LM Ericsson (publ) | Encoder adaption in teleconferencing system |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
US8751223B2 (en) * | 2011-05-24 | 2014-06-10 | Alcatel Lucent | Encoded packet selection from a first voice stream to create a second voice stream |
US8868415B1 (en) * | 2012-05-22 | 2014-10-21 | Sprint Spectrum L.P. | Discontinuous transmission control based on vocoder and voice activity |
CN106328169B (zh) * | 2015-06-26 | 2018-12-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
GB201620317D0 (en) * | 2016-11-30 | 2017-01-11 | Microsoft Technology Licensing Llc | Audio signal processing |
CN111798832B (zh) * | 2019-04-03 | 2024-09-20 | 北京汇钧科技有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN112750446B (zh) * | 2020-12-30 | 2024-05-24 | 标贝(青岛)科技有限公司 | 语音转换方法、装置和系统及存储介质 |
CN114333860B (zh) * | 2021-12-30 | 2024-08-02 | 南京西觉硕信息科技有限公司 | 基于gsm_efr实现语音编码不变的方法、装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1188957A (zh) * | 1996-09-24 | 1998-07-29 | 索尼公司 | 矢量量化方法和语音编码方法及其装置 |
US5978759A (en) * | 1995-03-13 | 1999-11-02 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions |
EP1288913A2 (en) * | 2001-08-31 | 2003-03-05 | Fujitsu Limited | Speech transcoding method and apparatus |
EP1564723A1 (en) * | 2002-10-31 | 2005-08-17 | NEC Corporation | Transcoder and coder conversion method |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH069346B2 (ja) * | 1983-10-19 | 1994-02-02 | 富士通株式会社 | 同期伝送のための周波数変換方法 |
US4545052A (en) * | 1984-01-26 | 1985-10-01 | Northern Telecom Limited | Data format converter |
US4769833A (en) * | 1986-03-31 | 1988-09-06 | American Telephone And Telegraph Company | Wideband switching system |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
US5835486A (en) * | 1996-07-11 | 1998-11-10 | Dsc/Celcore, Inc. | Multi-channel transcoder rate adapter having low delay and integral echo cancellation |
FI104138B1 (fi) * | 1996-10-02 | 1999-11-15 | Nokia Mobile Phones Ltd | Järjestelmä puhelun välittämiseksi sekä matkaviestin |
US5949822A (en) * | 1997-05-30 | 1999-09-07 | Scientific-Atlanta, Inc. | Encoding/decoding scheme for communication of low latency data for the subcarrier traffic information channel |
CA2263280C (en) * | 1998-03-04 | 2008-10-07 | International Mobile Satellite Organization | Method and apparatus for mobile satellite communication |
FI107979B (fi) * | 1998-03-18 | 2001-10-31 | Nokia Mobile Phones Ltd | Järjestelmä ja laite matkaviestinverkon palvelujen hyödyntämiseksi |
FI981508L (fi) * | 1998-06-30 | 1999-12-31 | Nokia Mobile Phones Ltd | Menetelmä, laite ja järjestelmä käyttäjän tilan arvioimiseksi |
US6260009B1 (en) | 1999-02-12 | 2001-07-10 | Qualcomm Incorporated | CELP-based to CELP-based vocoder packet translation |
US6510407B1 (en) * | 1999-10-19 | 2003-01-21 | Atmel Corporation | Method and apparatus for variable rate coding of speech |
JP2002202799A (ja) * | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
US7212511B2 (en) * | 2001-04-06 | 2007-05-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems and methods for VoIP wireless terminals |
CA2452774C (en) * | 2001-08-27 | 2012-01-10 | Nokia Corporation | A method and a system for transfering amr signaling frames on halfrate channels |
AU2003207498A1 (en) * | 2002-01-08 | 2003-07-24 | Dilithium Networks Pty Limited | A transcoding scheme between celp-based speech codes |
US6829579B2 (en) | 2002-01-08 | 2004-12-07 | Dilithium Networks, Inc. | Transcoding method and system between CELP-based speech codes |
US7155385B2 (en) * | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US7133521B2 (en) * | 2002-10-25 | 2006-11-07 | Dilithium Networks Pty Ltd. | Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain |
US7123590B2 (en) * | 2003-03-18 | 2006-10-17 | Qualcomm Incorporated | Method and apparatus for testing a wireless link using configurable channels and rates |
US20050091047A1 (en) * | 2003-10-27 | 2005-04-28 | Gibbs Jonathan A. | Method and apparatus for network communication |
US7613607B2 (en) * | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
EP1544848B1 (en) * | 2003-12-18 | 2010-01-20 | Nokia Corporation | Audio enhancement in coded domain |
US8817617B2 (en) * | 2005-08-16 | 2014-08-26 | Telefonaktiebolaget L M Ericsson (Publ) | Individual codec pathway impairment indicator for use in a communication |
-
2005
- 2005-11-30 EP EP05812712A patent/EP1955321A2/en not_active Ceased
- 2005-11-30 BR BRPI0520720-7A patent/BRPI0520720A2/pt not_active Application Discontinuation
- 2005-11-30 WO PCT/SE2005/001800 patent/WO2007064256A2/en active Application Filing
- 2005-11-30 CN CN2005800521991A patent/CN101322181B/zh not_active Expired - Fee Related
- 2005-11-30 US US12/095,709 patent/US8543388B2/en active Active
- 2005-11-30 EP EP10180703A patent/EP2276023A3/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5978759A (en) * | 1995-03-13 | 1999-11-02 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions |
CN1188957A (zh) * | 1996-09-24 | 1998-07-29 | 索尼公司 | 矢量量化方法和语音编码方法及其装置 |
EP1288913A2 (en) * | 2001-08-31 | 2003-03-05 | Fujitsu Limited | Speech transcoding method and apparatus |
EP1564723A1 (en) * | 2002-10-31 | 2005-08-17 | NEC Corporation | Transcoder and coder conversion method |
Also Published As
Publication number | Publication date |
---|---|
US8543388B2 (en) | 2013-09-24 |
WO2007064256A3 (en) | 2007-12-13 |
EP1955321A2 (en) | 2008-08-13 |
WO2007064256A2 (en) | 2007-06-07 |
EP2276023A2 (en) | 2011-01-19 |
BRPI0520720A2 (pt) | 2009-06-13 |
US20100223053A1 (en) | 2010-09-02 |
CN101322181A (zh) | 2008-12-10 |
EP2276023A3 (en) | 2011-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101322181B (zh) | 有效的语音流转换方法及装置 | |
US7092875B2 (en) | Speech transcoding method and apparatus for silence compression | |
KR102636396B1 (ko) | 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템 | |
KR100923891B1 (ko) | 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치 | |
US7873513B2 (en) | Speech transcoding in GSM networks | |
US6721712B1 (en) | Conversion scheme for use between DTX and non-DTX speech coding systems | |
US10607624B2 (en) | Signal codec device and method in communication system | |
US8457953B2 (en) | Method and arrangement for smoothing of stationary background noise | |
US8380495B2 (en) | Transcoding method, transcoding device and communication apparatus used between discontinuous transmission | |
CN101399040B (zh) | 一种帧错误隐藏的谱参数替换方法 | |
US7536298B2 (en) | Method of comfort noise generation for speech communication | |
EP1387351B1 (en) | Speech encoding device and method having TFO (Tandem Free Operation) function | |
Chen et al. | 8 kb/s Low-Delay CELP Coding of Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120418 Termination date: 20191130 |
|
CF01 | Termination of patent right due to non-payment of annual fee |