CN105161115A - 用于多码率语音和音频编解码器的帧擦除隐藏 - Google Patents
用于多码率语音和音频编解码器的帧擦除隐藏 Download PDFInfo
- Publication number
- CN105161115A CN105161115A CN201510591594.2A CN201510591594A CN105161115A CN 105161115 A CN105161115 A CN 105161115A CN 201510591594 A CN201510591594 A CN 201510591594A CN 105161115 A CN105161115 A CN 105161115A
- Authority
- CN
- China
- Prior art keywords
- frame
- codec
- bit
- fec
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000005540 biological transmission Effects 0.000 description 54
- 238000004891 communication Methods 0.000 description 12
- 239000010410 layer Substances 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 230000001413 cellular effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 6
- 230000011664 signaling Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
一种用于多码率语音和音频编解码器的帧擦除隐藏。音频编码终端包括:编码模式设置单元,从多个操作模式设置用于由编解码器对输入音频数据进行编码的操作模式;编解码器被配置为基于设置的操作模式对输入音频数据进行编码,使得当设置的操作模式是FER操作模式时,编解码器根据一个或多个FEC模式中的一个FEC模式对输入音频数据的当前帧进行编码。在编码模式设置单元将操作模式设置为高FER操作模式时,编码模式设置单元从针对高FER操作模式预先确定的所述一个或多个FEC模式选择所述一个FEC模式,根据选择的所述一个FEC模式,基于输入音频数据的编码内的冗余的合并或与编码的输入音频分离的分离冗余信息来控制编解码器。
Description
本申请是向中国知识产权局提交的申请日为2012年04月11日、申请号为201280028806.0、发明名称为“用于多码率语音和音频编解码器的帧擦除隐藏”的申请的分案申请。
技术领域
一个或多个实施例涉及用于对音频进行编码和解码的科技和技术,更具体的,涉及用于使用利用多码率语音和音频编解码器的改进的帧错误隐藏对音频进行编码和解码的科技和技术。
背景技术
在针对预计编码的语音或音频的帧在它们的传输期间遭遇偶尔丢失的环境的语音和音频编码的技术领域中,编码的语音或音频传输或解码系统被设计为帧丢失限制到少量百分比。
为了限制这些帧丢失,或为了补偿这些帧丢失,可由独立于用于对语音或音频进行编码或解码的语音编解码器的解码系统实现帧擦除隐藏(FEC)算法。很多编解码器使用仅解码器的算法,以减少由帧丢失造成的劣化。
这样的FEC算法最近已被用于在蜂窝通信网络或根据给定标准或规范操作的环境中。例如,所述标准或规范可定义应被用于连接和通信的通信协议和/或参数。不同标准和/或规范的示例包括例如全球移动通信系统(GSM)、GSM/增强型数据速率GSM演进(EDGE)、美国移动电话系统(AMPS)、宽带码分多址(WCDMA)或第三代系统(3G)通用移动电信系统(UMTS)、国际移动电信2000(IMT-2000)。这里,先前已使用可变码率编码或固定码率编码执行语音编码。在可变码率编码中,源使用算法来将语音分类为不同码率,并根据各个预定比特率对分类语音进行编码。可选择地,已使用固定比特率执行语音编码,其中,可根据固定比特率对检测的声音语音音频进行编码。这种固定码率编解码器的示例包括由第三代合作伙伴项目(3GPP)开发的用于GSM/EDGE和WCDMA通信网络的多码率语音编解码器,诸如,自适应多码率(AMR)编解码器和自适应多码率宽带(AMR-WB)编解码器,所述编解码器根据这样检测的语音信息并还基于诸如网络性能和空中接口的无线电信道条件等因素,对语音进行编码。术语多码率指依据编解码器的操作的模式可用的固定码率。例如,AMR包含用于语音的从4.7kbit/s到12.2kbit/s的八个可用比特率,而AWR-WB包含用于语音的从6.6kbit/s到23.85kbit/s的九个比特率。AMR和AMR-WB编解码器的规范分别可用在用于第三代3GPP无线系统的3GPPTS26.090和3GPPTS26.190技术规范,可在用于第三代3GPP无线系统的第三代的3GPPTS26.194技术规范中找到AMRWB的语音检测方面,其公开被包含在本文中。
在这样的蜂窝环境中,例如,可由于例如蜂窝无线链路中的干扰或IP网络中的路由器溢出而导致丢失。例如,目前正在开发新的第四代3GPP无线系统,被称为增强型分组业务(EPS),EPS的主要空中接口被称为长期演进(LTE)。作为示例,图1示出具有语音媒体组件12的EPS10,其中,根据用于宽带语音音频数据的示例AMR-WB编解码器和用于窄带语音音频数据的AMR编解码器对语音数据进行编码,所述AMR也可被称为AMR窄带(AMR-NB)。EPS10符合例如在3GPP版本8和9中的UMTS和LTE语音编解码器。在3GPP版本8和9中的UMTS与LTE语音编解码器也可被称为用于通过在3GPP版本8和9中的EPS的IP多媒体核心网络子系统(IMS)的多媒体电话服务,这是用于第三代3GPP无线系统的第四代的第一版本。IMS是用于传送互联网协议(IP)多媒体服务的架构框架。
虽然已经考虑了潜在的传输干扰和蜂窝或无线网络失败而开发了LTE,但是在3GPP蜂窝网络中传输的语音帧将仍然遭遇擦除(在传输期间小百分比的帧和/或包丢失)。擦除是例如由解码器进行的分类,用于解码器假设包的信息已丢失或无法使用。在EPS网络的情况下,例如,帧擦除可仍被预测。为了解决擦除帧,解码器通常会实现帧错误隐藏(FEC)算法,以减轻相应的丢失帧的影响。
一些FEC方法仅使用解码器来解决擦除帧(即,丢失帧)的隐藏。例如,解码器注意到或被动注意到已发生帧擦除,并从刚在擦除帧之前或有时刚在擦除帧之后到达解码器的已知好的帧估计擦除帧的内容。
一些3GPP蜂窝网络的特点在于能够识别发生的帧擦除并向接收站通知发生的帧擦除。因此,语音解码器知道接收到的语音帧将被认为是好的帧还是将被认为是擦除帧。由于语音和音频的性质,如果实施适当的帧擦除减轻或隐藏措施,则可容忍很小百分比的帧擦除。一些FEC算法可仅使用噪声来代替丢失的包(例如,静音,一些类型的淡出/淡入或一些类型的插值),以帮助使帧的丢失不太明显。
可替代的FEC方法包括使编码器以冗余方式发送特定信息。例如,通过参照包含在此的ITU电信标准化部门G.718(ITU-TG.718)标准建议在增强层发送适合核心编码器输出的冗余信息。可在来自核心层中的不同的包中发送所述增强层。
发明内容
技术方案
在一个或多个实施例中,提供一种终端,包括:编码模式设置单元,用于从多个操作模式设置用于由编解码器对输入音频数据进行编码操作模式;编解码器被配置用于基于设置的操作模式对输入音频数据进行编码,使得当设置的操作模式是高帧擦除率(FER)操作模式时,编解码器根据一个或多个帧擦除隐藏(FEC)模式的一个FEC模式对输入音频数据的当前帧进行编码,其中,在编码模式设置单元将操作模式设置为高FER操作模式时,编码模式设置单元从针对高FER操作模式预先确定的所述一个或多个FEC模式选择所述一个FEC模式,根据选择的所述一个FEC模式,基于输入音频数据的编码内的冗余的合并或与编码的输入音频分离的分离冗余信息来控制编解码器。
编码模式设置单元可执行针对输入音频数据的多个帧中的每一个从所述一个或多个FER模式选择所述一个FEC模式。
高FER操作模式可以是用于3GPP标准的增强语音服务(EVS)编解码器的操作模式,并且所述编解码器可以是EVS编解码器,其中,当EVS编解码器对当前帧的音频进行编码时,EVS编解码器将来自至少一个邻近帧的编码音频添加到对当前帧的当前包中的当前帧进行编码的结果,作为组合EVS编码源比特,所述组合EVS编码源比特被表示在当前包中,并与当前包的RTP有效载荷部分区别,其中,所述来自至少一个邻近帧的编码音频包括一个或多个先前帧和/或一个或多个将来帧的分别编码的音频,其中,EVS编码器可被配置为将来自所述至少一个邻近帧中的每一个的音频分别编码为编码音频,并且将来自所述至少一个邻近帧中的每一个的分别编码的音频包括在与当前包分离的包中。
所述一个或多个FEC模式中的至少一个可控制编解码器根据有选择的不同固定比特率和/或不同包大小来对当前帧和邻近帧进行编码,控制编解码器根据相同固定比特率对当前帧和邻近帧进行编码,或控制编解码器根据相同包大小对当前帧和邻近帧进行编码,其中,所述一个或多个FEC模式中的所述至少一个FEC模式中的每一个控制编解码器将当前帧划分为子帧,基于根据比相同固定比特率更小的比特率编码的子帧,来计算用于每个子帧的各个码本比特的数量,并且使用所述相同固定比特率对子帧进行编码,其中,所述相同固定比特率具有用于限定子帧的比特的码字的各个码本比特的数量。
EVS编解码器可被配置为基于将当前帧的比特划分为包括至少第一子帧和第二子帧的子帧,来对当前帧的比特提供不等冗余,并不同于将分类为第二子帧的当前帧的比特的编码结果任意添加在邻近包中,将分类在第一子帧中的当前帧的比特的编码结果添加到各自一个或多个邻近包。
EVS编解码器可被配置为基于将当前帧的比特划分为包括最少一个第一子帧和第二子帧的子帧,来对当前帧的线性预测参数提供不等冗余,并且不同于将分类为第二子帧的当前帧的比特的编码的线性预测参数结果任意添加到邻近包中,将分类在第一子帧中的当前帧的比特的编码的线性预测参数结果添加到各自一个或多个邻近包。
编解码器可还被配置为将高FER模式标记添加到当前帧的当前包,以将设置的当前帧的操作模式标识为高FER操作模式,其中,可由当前包的RTP有效载荷部分中的单个比特在当前包中表示高FER模式标记。编解码器可还被配置为将FEC模式标记添加到当前帧的当前包,以标识针对当前帧选择了所述一个或多个FEC模式中的哪一个FEC模式,其中,仅作为示例,可由预定数量的比特在当前包中表示FEC模式标记,其中,编解码器使用不同帧的包中的冗余对当前帧的FEC模式标记进行编码。仅作为示例,在一个实施例中,比特的预定数量可以是2,虽然可选择的实施例同样可用。
高FER操作模式可以是用于3GPP标准的增强语音服务(EVS)编解码器的操作模式,并且编解码器可以是EVS编解码器,其中,EVS编解码器可还被配置为对至少当前包中的高FER模式标记进行解码,来将设置的当前帧的操作模式标识为高FER操作模式,并且在检测到高FER模式标记时,对来自至少当前包的当前帧的FEC模式标记进行解码,以标识针对当前帧选择了所述一个或多个FEC模式中的哪一个FEC模式,其中,输入音频数据的编码可以是根据选择的FEC模式对输入音频数据进行的解码,其中,当EVS编解码器可以对输入音频数据进行解码时,从当前包解析来自至少一个邻近帧的编码的冗余音频,所述编码的冗余音频包括对于当前帧的一个或多个先前帧和/或一个或多个将来帧的分别编码的音频,并且基于当前包中的分别解析的编码冗余音频对来自所述一个或多个先前帧和/或一个或多个将来帧的丢失帧进行解码。
这里,EVS编解码器可被配置为基于输入音频数据内的当前帧的比特或参数的不等冗余对当前帧进行解码,其中,不等冗余可基于先前将当前帧的比特或参数分类为至少第一类和第二类,不同于将分类为第二类的当前帧的参数或比特的编码结果任意添加在邻近包中作为各个冗余信息,将分类在第一类中的当前帧的比特或参数的编码结果添加到各个一个或多个邻近包作为各自冗余信息,其中,对当前帧进行编码的步骤包括在当前帧丢失时,基于来自所述一个或多个邻近包的当前帧的解码音频对当前帧进行解码。
高FER操作模式可以是用于3GPP标准的增强语音服务(EVS)编解码器的操作模式,并且编解码器可以是EVS编解码器,其中,EVS编解码器可还被配置为对至少当前包中的高FER模式标记进行解码,来将设置的当前帧的操作模式标识为高FER操作模式,并且当检测到高FER模式标记时,对来自当前包的当前帧的FEC模式标记进行解码,以标识针对当前帧选择了所述一个或多个FEC模式中的哪一个FEC模式,其中,输入音频数据的编码可以是根据选择的FEC模式对输入音频数据进行的编码,其中,EVS编解码器可被配置为基于用于输入音频数据内的当前帧的比特或参数的不等冗余对当前帧进行解码,其中,不等冗余可基于先前将当前帧的比特或参数分类为至少第一类或第二类,并且不等同于将分类在第二类中的当前帧的比特或参数的编码结果任意添加在邻近包中,将分类在第一类中的当前帧的比特或参数的编码结果添加到各自一个或多个邻近包,其中,对当前帧进行编码的步骤包括在当前帧丢失时,基于来自所述一个或多个邻近包的当前帧的解码音频对当前帧进行解码。
这里,EVS编解码器可被配置为通过将当前帧的比特分类为至少第一类和第二类来对当前帧的比特或参数提供不等冗余,并且不同于将分类为第二类的当前帧的比特的编码结果任意添加在邻近包中,将分类在第一类中的当前帧的比特的编码结果添加到各个第一或多个邻近包。
EVS编解码器可被配置为通过将当前帧的比特或参数分类为至少第一类和第二类来对当前帧的线性预测参数提供不等冗余,并且不同于将分类为第二类的当前帧的比特的编码的线性预测参数结果任意添加在邻近包中,将分类为第一类中的当前帧的比特的编码的线性预测参数结果添加到各自一个或多个邻近包。
编解码器可对当前帧的音频进行编码,编解码器将来自至少一个邻近帧的编码音频添加到当前帧的当前包的帧错误隐藏(FEC)部分,其中,当前帧的当前包的FEC部分与包括当前帧的编码结果的当前包的编解码器编码的源比特部分区别,当前包的编解码器编码的源比特部分和当前包的FEC部分均被表示在与当前包中,并与当前包的任意RTP有效载荷部分区别,其中,编解码器可被配置为将来自所述至少一个邻近帧中的每一个的音频分别编码为编码音频,并将来自所述至少一个邻近帧中的每一个的分别编码的音频包括与当前包分别的包中,其中,所述来自至少一个邻近帧的编码音频包括一个或多个先前帧和/或一个或多个将来帧的分别编码的音频。
编解码器可被配置为通过将所述至少一个邻近帧的比特的编码的各个结果添加到当前包作为单独区分的FEC部分,来对所述至少一个邻近帧的比特提供冗余。另外,所述分离的包可不连续。
编码模式设置单元可基于终端可用的反馈信息的分析将操作模式设置为FER操作模式,其中,与非FER操作模式的多个模式的其余操作模式相比,所述FER操作模式具有不同的、增加的和/或可变的冗余,所述分析基于终端外部的一个或多个确定的传输质量和/或确定输入音频数据中的当前帧在传输时对帧擦除更敏感或具有比输入音频数据的其他帧更高的重要性。
反馈信息可包括以下项中至少一个:快反馈(FFB)信息,作为在物理层发送的混合自动重传请求(HARQ)反馈;慢反馈(SFB)信息,作为在比物理层更高的层发送的来自网络信令的反馈;带内反馈(ISB)信息,作为来自远端的编解码器的带内信令;高敏感帧(HSF)信息,作为由编解码器对于将以冗余方式发送特定关键帧的选择。
终端可接收FFB信息、HARQ反馈、SFB信息和ISB信息中的至少一个,并执行对接收到的反馈信息的分析以确定终端外部的一个或多个的传输质量。
终端可接收指示先前已基于包中接收到的标记执行了对FFB信息、HARQ反馈、SFB信息和ISB信息中的所述至少一个的分析的信息,其中,所述接收到的标记指示当前包中的当前帧根据高FER模式被编码或指示编解码器应该在高FER模式下来执行当前包的编码。
编码模式设置单元可基于从多个可用编码类型确定的当前帧和/或邻近帧的编码类型或从多个可用帧分类确定的当前帧和/或邻近帧的帧分类中的一个,将操作模式设置为所述一个或多个FEC模式中的至少一个FEC模式。
所述多个可用编码类型可包括用于无声语音帧的无声宽带类型、用于有声语音帧的有声宽带类型、用于非固定语音帧的一般宽带类型和用于增强帧擦除性能的过渡宽带类型。所述多个可用帧分类可包括用于无声、静音、噪声、语音偏移的无声帧分类、用于从无声分量过渡到有声分量的无声过渡分类、用于从有声分量过渡到无声分量的有声过渡分类、用于有声帧的有声分类,并且先前帧也是有声的或被分类为起始帧、以及用于足够好地建立以使解码器跟踪语音隐藏的有声起始的起始分类。
在一个或多个实施例中,提供一种编解码器编码方法,包括:从多个操作模式设置用于对输入音频数据进行编码的操作模式;基于设置的操作模式对输入音频数据进行编码,使得当设置的操作模式是高帧擦除率(FER)操作模式时,编码的步骤包括根据一个或多个帧擦除隐藏(FEC)模式的一个FEC模式对输入音频数据的当前帧进行编码,其中,在将操作模式设置为高FER操作模式时,从针对高FER操作模式预先确定的所述一个或多个FEC模式选择所述一个FEC模式,并根据选择的一个FEC模式,基于输入音频数据的编码内的冗余的合并或与编码输入音频分离的分离冗余信息对输入音频数据进行编码。
一个或多个实施例的附加方面和/或优点将在下面的描述中被部分阐明,并且一部分从描述中是清楚的或通过公开的一个或多个实施例的实施可以被理解。一个或多个实施例可包括这样的附加方面。
附图说明
从下面结合附图的实施例的描述中,这些和/或其他方面将变得清楚和更易于理解,其中:
图1示出根据一个或多个实施例的包括增强语音服务(EVS)编解码器的演进分组系统(EPS)20;
图2a示出根据一个或多个实施例的编码终端100、一个或多个网络140和解码终端150;
图2b示出根据一个或多个实施例的包括EVS编解码器的终端200;
图3示出根据一个或多个实施例的在替换包中提供的针对一个帧的冗余比特的示例;
图4示出根据一个或多个实施例的在两个替换包中提供的针对帧的冗余比特的示例;
图5示出根据一个或多个实施例的在帧的包之前或之后的替换包中提供的针对所述帧的冗余比特的示例;
图6示出根据一个或多个实施例的分别基于源比特的不同分类的替换包中的源比特的不等冗余;
图7示出根据一个或多个实施例的具有不等冗余的示例FEC操作模式;
图8示出根据一个或多个实施例的用于具有相同传输块大小的高FEC操作模式的不同FEC操作模式;
图9示出根据一个或多个实施例的基于A类比特的数量等于C类比特的数量的约束而可用于不等冗余传输的包的四个子类型;
图10示出根据一个或多个实施例的向起始帧提供增强保护的各种包的子类型;
图11说明根据一个或多个实施例的在高FEC模式下使用不同FEC操作模式对音频数据进行编码的方法;
图12示出根据一个或多个实施例的基于是否针对所有FEC操作模式保持相同比特率或相同包大小的FEC框架;
图13示出根据一个或多个实施例的三个示例FEC操作模式;
图14示出根据一个或多个实施例的在高FEC模式下使用不同FEC操作模式对音频数据进行解码的方法。
具体实施方式
现在将详细描述一个或多个实施例,在附图中示出所述实施例,其中相同的标号指示相同的元件。就这一点而言,由于本文讨论的实施例被理解之后,本领域的普通技术人员将理解本文描述的系统、设备和/或方法的各种改变、修改和等同物包括在本发明中,因此本发明的实施例可以以许多不同的形式实现,并且不应被解释为限于这里阐述的实施例。因此,下面通过参照附图仅描述实施例,以解释本发明的各个方面。
一个或多个实施例涉及语音和音频编码的技术领域,其中,编码的语音或音频的帧可在它们的传输期间遭遇偶尔丢失。仅作为示例,可由于蜂窝无线链路的干扰的或IP网络中的路由器溢出而导致丢失。
这里,虽然可针对未来在第四代的3GPP无线系统架构内采用的一个或多个EVS编解码器讨论实施例,但是实施例不限于此。
3GPP在使用于未来的蜂窝或无线系统的新的语音和音频编解码器标准化的处理中。所述编解码器(被称为增强语音服务(EVS)编解码器)被设计用于有效地将语音和音频压缩到用于被称为增强分组业务(EPS)的3GPP第四代网络的宽范围的编码比特率中。EPS的一个关键特点是针对包括这些语音和音频、包括通过EPS空中接口(被称为长期演进(LTE))的所有服务使用基于分组的传输。EVS编解码器被设计用于在基于分组的环境下有效地操作。
除了立体声功能以外,EVS编解码器将具有对从窄带到宽带的音频带宽进行压缩的能力,并可被看作现有3GPP编解码器的最终代替者。在3GPP中的新编解码器的推动包括语音和音频编码算法的提高、预计需要更高的音频带宽和立体声的新的应用以及语音和音频服务从电路交换到分组交换环境的变迁。
如先前基于3GPP网络的情况,EVS编解码器将操作的环境的关键方面是随着语音/音频帧从发送器传输到接收器,所述语音/音频帧丢失。这是在蜂窝网络中的传输的预期结果并在设计用于在这样的环境下操作的语音和音频编解码器的设计期间被考虑。EVS编解码器也不是例外并也将包括最小化语音的帧的丢失或帧擦除的影响的算法。EPS以及传统的3GPP蜂窝网络被设计来在正常条件期间为大多数用户保持合理的帧擦除率。
在此预期EVS编解码器(诸如,图1的EVS编解码器26)将发现不仅用于3GPP应用中,还用于包丢失条件可少于、类似于或差于3GPP网络的超越3GPP的应用。此外,即使在EPS中,存在一些用户,所述用户在一些条件下将体验高于一般率的帧擦除(即,高于EVS的预期)。为了解决这些问题,提出用于EVS编解码器的高帧擦除率(FER)模式,其中,额外资源(额外比特率和延迟)在特殊情况下可用来提供额外帧丢失。
例如,高FER模式可解决在LTE的极端操作条件下的帧擦除率。高FER模式将权衡额外资源(比特率、延时),以换取大约10%或更高的帧擦除率的更好的性能。
仅作为实例,一个或多个实施例关注于EVS编解码器26的高FER模式的帧擦除隐藏(FEC)框架。一个或多个实施例提出冗余方案,其中,基于特定参数的重要性,语音帧的各种编码参数使用变化的冗余被发送。另外,在编码器产生但不是编码语音的一部分的FEC比特也可使用变化冗余被优先化并发送。通过重复在多个包中的一些或全部的比特,并依据以帧间或帧内的不等方式执行实施例,来实现冗余。
图1示出语音媒体组件22内的用于第四代3GPP的演进分组系统(EPS)20,其包括增强型语音服务(EVS)编解码器26和语音服务编解码器24。EVS编解码器26可通过示例LTE空中接口来有效地操作。仅作为示例,这个有效的设计可将各种编解码器的帧大小和RTP有效载荷与已针对LTE定义的传输块大小匹配。EVS编解码器26可以是将在可发生或将发生帧丢失的环境(无线空中接口和VoIP网络)中操作的多码率和多带宽编解码器。因此,根据一个或多个实施例中,EVS编解码器26包括用于减轻帧丢失的影响的帧擦除隐藏(FEC)算法。
先前已通过与用于对语音和音频进行编码或解码的语音编解码器独立的解码系统实现了音频编码FEC方法。然而,如果有机会,可能更有效的方法是在EVS编解码器26的解码器端的开发阶段期间将FEC算法设计到EVS编解码器26中。在编码器端,编码器还通常独立于实现为对音频数据的语音进行编码的基础编解码器而仅提供数据中的冗余。因此,虽然先前编解码器已使用仅解码器算法以减少由于帧丢失引起的劣化,在这里提出了根据一个或多个实施例的尽管以系统带宽和可能延迟为额外代价但将FEC算法合并在EVS编解码器26的至少编码器端(例如,在EVS编解码器26的编码器端的开发阶段期间)的可能更有效的方法。一个或多个实施例可包括由编码器应用的FEC算法以及解码器的适当FEC算法,以隐藏错误或丢失帧,并还可用于与解码器的附加帧错误隐藏算法或方法结合来充分地重建错误比特或丢失包,例如,为了保持解码音频数据的合适时序和可能具有如错误或丢失不易注意的音频特点或用于相同的重建。因此,EVS编解码器26可实现用于帧丢失隐藏的两个先前讨论的方法,以及这里讨论的FEC框架的多个方面。
因此,一个或多个实施例涉及至少基于编码器的FEC算法,如此在第四代3GPP无线系统中,具有包括可分别执行编码和解码操作的编码器和/或解码器的一个或多个实施例。
图2a示出编码终端100、一个或多个网络140以及解码终端150。在一个或多个实施例中,所述一个或多个网络140还包括一个或多个中间终端,所述中间终端还可包括EVS编解码器26并根据需要来执行编码、解码或变换。编码终端100可包括编码器端的编解码器120和用户接口130,解码终端150可类似地包括解码器端的编解码器160和用户接口170。
图2b示出根据一个或多个实施例的终端200以及所述一个或多个网络140内的任意中间终端,所述终端200代表图2a的编码终端100和解码终端150中的一个或两者。终端200包括连接到音频输入装置(例如,诸如麦克风260)的编码单元205,连接到音频输出设备(诸如,扬声器270)的解码单元250和可能的显示器230和输入/输出接口235以及处理器(诸如,中央处理单元(CPU)210)。CPU210可被连接到编码单元205和解码单元250,并可控制编码单元205和解码单元250的操作以及终端200的其他组件与编码单元205和解码单元250的交互。在实施例中,仅作为示例,终端200可以是移动装置(诸如,移动电话、智能电话、平板计算机或个人数字助理),并且仅作为示例,CPU210可在移动电话、智能电话、平板计算机或个人数字助理中实现终端的其它功能和用于通常功能的能力。
作为示例,根据一个或多个实施例,编码单元205基于FEC算法或框架数字地对输入音频进行编码。存储的码本可基于应用的FEC算法被选择地使用,诸如存储在编码单元205和解码单元250的存储器中的码本。编码的数字音频可随后在调制到载波信号上的包中被发送,并由天线240发送。编码的音频数据可还被存储在存储器215中用于稍后播放,其中,存储器215可以是例如非易失性或易失性存储器。编码的数字音频可随后在调制到载波信号的包中被发送,并由天线240发送。作为另一示例,解码单元250可基于一个或多个实施例的FEC算法对输入音频进行解码。由解码单元250解码的音频可从天线240提供,或作为先前存储的编码的音频数据从存储器215获得。另外,在一个或多个实施例中,存储的码本可被存储在存储单元205和解码单元250的存储器中或存储器215中,并基于应用的FEC算法选择地被使用。如指出的,取决于实施例,编码单元205和解码单元250均包括诸如用于存储适当码本和适当编解码器算法或FEC算法的存储器。编码单元205和解码单元250可以是单个单元,例如,一起代表包括的处理装置(如用于对音频数据进行编码和/或解码的编解码器)的相同使用。在实施例中,处理装置被配置用于执行编码和/或解码的编解码器,其中,所述编解码器对输入音频的不同部分或不同音频流进行并行处理。
终端200还提出从编码单元205和/或解码单元250的操作的多个可用模式中选择的编解码器模式设置单元255。每个编解码模式设置单元255考虑可存在一个用于编码单元205和解码单元250两者的编解码器模式设置单元。EVS编解码器可使用相同的操作模式对语音和音乐两者进行编码。另外,如果输入音频是非语音音频,则编码单元205或解码单元250可分别对例如音乐或更大保真度音频进行编码和解码。如果输入音频是语音音频,则编解码器模式设置单元可确定编码单元205或解码单元250应分别使用多个操作模式中的哪一个来对音频数据进行编码或解码。如果编解码器模式设置单元255检测到高FER操作模式被确定,则将由编解码器模式设置单元255选择一个或多个FEC模式中的一个来在高FEC操作模式中操作。虽然未实现可用于语音编码的其他操作模式,但是由于对高FER操作模式的操作模式的设置,FEC模式可合并在此讨论的FEC框架内的其他语音编码模式的使用。编解码器模式设置单元255可还执行对编码的输入包的解析,来解析出标识接收到的编码音频是否是语音、用于非语音音频的操作模式、是否设置了高FER模式、用于FER模式的任何可能的一个或多个FEC操作模式等的信息。虽然可还由编码单元205基于例如执行的最终编码来添加所述信息,但是编解码器模式设置单元255可还将所述信息添加到编码的输出包的包中。
在一个或多个实施例中,EVS编解码器26包括用于语音音频的若干操作模式。例如,每个操作模式将具有相关的编码比特率。根据特定模式的比特率,例如,一些能够多次使用来传输音频带宽的选择,或传输使用传统AWR-WB编解码器编码的语音。在下面的表1中示出这些用于语音音频的操作模式的示例。
已使用用在传输各种大小的包中的固定数量的传输块大小设计LTE空中接口。更少的传输块大小被设计用于现有的3GPP编解码器(例如,用于第三代3GPP无线系统),并可由EVS编解码器26通过编解码器将操作的比特率模式的明智选择来重复使用。在实施例中,EVS编解码器26将语音编码为20ms帧,为了减少端到端延迟,每个包可传输一个帧,虽然实施例不限于此。
下面的表1示出在比特范围的较低端的这些示例语音EVS编解码器比特率和与比特率模式结合使用的相关传输块大小。RTP有效载荷的示例大小基于AMR-WB编解码器中的现有RTP有效载荷大小,注意实施例不限于所述RTP有效载荷大小,或不限于这样的有效载荷被要求是RTP有效载荷的限制。
表1:
上述描述是对固定码率编解码器或以恒定码率对所有有效语音帧进行编码的编解码器的描述。对于在分组交换环境中的操作,以非常低的码率和非连续方式对语音发音之间的静音或暂停进行编码和传输。
如上所述,在网络中传输的语音帧遭遇擦除,特别是在3GPP蜂窝网络中,预计小百分比的发送数据在传输期间遭遇擦除的期望。
帧擦除隐藏(FEC)算法可大致分为两类:独立于编解码器和依赖于编解码器。独立于编解码器的FEC算法足够通用从而在无需知道涉及的具体编码算法的情况下被应用,并且作为结果不如依赖于编解码器的算法有效。依赖于编解码器的算法在编解码器的开发阶段就被设计为与编解码器结合,并通常更有效。一个或多个实施例包括至少依赖于编解码器的FEC算法以及依赖于和独立于编解码器的FEC算法。
这里的帧擦除隐藏算法可还被分为另一组两大类:基于接收器和基于发送器。基于接收器的算法可被单独放置在语音解码器中和/或解码单元250的抖动缓冲器中,并由接收端为解码器产生的帧擦除标记触发。解码单元250的错误隐藏可包括数据隐藏方法,仅作为示例,所述方法包括基于使用静音、白噪声、代替波形、采样差值、音调波形代替、时标修改的隐藏;基于已知或邻近音频特征的再生;和/或将关于错误或丢失两端的语音特征与模型匹配的基于模型的恢复。简单的算法包括期望最小化用户观察到的包丢失的针对擦除帧恢复的音频中的静音或噪声代替,或先前好的帧的重复。为了继续串起帧擦除,解码器通常会逐渐减弱解码的语音的音量。更先进的算法可考虑语音的先前接收到的好帧的特性并插入先前接收到的好的参数。如果涉及抖动缓冲器,则为了插值的目的,存在机会对擦除帧的两端(假设单个帧擦除)使用语音的好帧。
基于发送器的FEC算法消耗更多资源,但是比仅有接收器的技术更强大。基于发送器的FEC算法通常涉及在侧信道中将冗余信息发送到接收器,以用于在帧擦除的情况下重建丢失帧。基于发送器的算法的性能归因于从主信道的发送对侧信息的发送进行去相关的能力。在蜂窝网络中的实时语音编码应用中,可通过将冗余信息的发送延迟一个或多个帧来实现部分去相关。这通常会引发已经延迟约束系统的发送路径的延迟,可通过接收端的抖动缓冲器(例如,解码单元250的抖动缓冲器)部分地减轻延迟。
根据一个或多个实施例,提供到接收器的侧信息或冗余信息可包括原始语音帧的完全副本(完全冗余)或所述帧的关键子集(部分冗余)。这里选择冗余是语音帧的选择的子集与侧信息一起被发送的技术。可按照选择方式发送帧的完全语音帧或子集。根据一个或多个实施例,这里的另一方法是使用两个单独的编解码器对语音进行编码,一个编码解码器是用于大部分编码的期望的编解码器,另一个编解码器是低率低保真度编解码器。在包括多渲染的示例实施例中,编码的语音的两个版本被发送到解码器,其中,所述编码的语音的两个版本具有考虑侧信道的低率版本。
另外,一个或多个实施例实现不等错误保护,其中,基于各个比特或参数对擦除的敏感度将帧的编码比特分为多个级别,例如A、B和C。级别A的比特或参数的擦除可对声音质量具有比当等级C的比特或参数丢失时更高的影响。将帧的编码比特或参数分为多个等级可还被称为将帧划分为子帧,注意术语子帧的使用不需要对于每个子帧全部连续的单独的编码比特。
在基于发送器的FEC系统中的接收器的任务是识别帧擦除,并确定是否已接收到用于擦除帧的冗余侧信息。如果所述侧信息也丢失,则情况与基于接收器的FEC系统的情况类似,并且可应用基于接收器的FEC算法。如果存在冗余侧信息,则所述冗余侧信息用于与接收器可用于隐藏目的的任意其他相关信息一起隐藏丢失帧。
如上所述,EVS编解码器26可包括与其他操作模式区分的高FER操作模式。EVS编解码器26的高FER操作模式可不是主要操作模式,但是是当已知用户正体验比一般帧丢失率更高的帧丢失率时选择的模式。终端200和网络140使用混合自动重传请求(HARQ)实现LTE空中接口来在物理层级别发送比特块。这种机制的成功或失败可提供关于通过空中接口是否成功发送帧的快速反馈。在一个或多个实施例中,在移动到移动通话的情况下,关于涉及全部发送路径的链路质量的反馈通常会慢并可涉及EVS编解码器26之间的更高层通信或专用带内信令。
一个或多个实施例提供用于EVS编解码器26的高FER操作模式的FEC框架。所述框架对EVS编解码器26的固定率模式和带宽有效。在实施例中,该FEC框架对EVS编解码器26的所有固定率模式和带宽有效。根据一个或多个实施例,所述框架包括用于固定率编码帧的部分冗余传输和完全冗余传输的方法。在实施例中,部分冗余和完全冗余两者在高FER模式期间传输固定大小的传输块。从一般操作模式到高FER模式的过渡可还包括传输块大小的改变。实施例相同地包括使用具有固定或可变比特率的具有固定大小传输块的部分、不等或完全冗余和具有固定或可变比特率的具有可变大小传输块的部分、不等或完全冗余的方法。
根据一个或多个实施例,图1的EVS编解码器26的高FER模式是选择冗余的示例。
如下所述,在EPS环境中存在与EVS编解码器26的两个示例交互点(例如,从解码单元150到编码单元100的反馈),例如,因此,基于监视帧擦除率的解码单元150,编码单元100做出是否进入高FER操作模式的决定,并且解码单元150做出是否进入高FER操作模式的决定。如果解码单元150做出进入高FER操作模式的决定,则所述决定被发送到编码单元100,因此在高FER操作模式下对音频或语音的下一帧进行编码。相似地,具有图2b的布置,如果终端200正对音频或语音数据进行编码和对音频和语音数据进行解码(诸如在会议通话或VOIP会议中),如果编码单元100和解码单元150中的一个基于接收到的信息确定应进入高FER操作模式,则终端200可在高FER操作模式下对下一帧进行编码。还应在高FER操作模式下,例如,基于与帧相关的信令执行远端终端200的各个编码。
依据实施例,EVS编解码器26基于下述对四个源中的一个或多个源进行处理的信息进入高FER操作模式:1)快反馈(FFB)信息,如在物理层发送的HARQ反馈;2)慢反馈(SFB)信息;来自在比物理层高的层发送的网络信令的反馈;3)带内反馈(ISB)信息:来自远端的EVS编解码器26的带内信令;以及4)高敏感度帧(HSF)信息:由EVS编解码器26选择的以冗余方式发送的特定关键帧。源(1)和源(2)可独立于EVS编解码器26,而源(3)和源(4)依赖于EVS编解码器26,并需要EVS编解码器26特定算法。
高FER模式决定算法做出进入高FER操作模式(HFM)的决定。在一个或多个实施例中,图2b的编码模式设置单元255可根据下面仅作为示例的算法1实现高FER模式决定算法。
算法1:
定义
初始化期间的设置
算法
如上所述,依据实施例,图2b的编码模式设置单元255可基于对四个源中的一个或多个进行处理的信息(诸如,从使用SFB信息计算的Ns帧的平均错误率得到的SFBavg、从使用FFB信息计算的Nf帧的平均错误率得到的FFBavg、从使用ISB信息计算的Ni帧的平均错误率得到的ISBavg以及各自阈值Ts、Tf和Ti)的分析来指示EVS编解码器26进入高FER操作模式。基于与各个阈值的比较,图2b的编码模式设置单元255可确定是否进入高FER模式以及选择哪个FEC模式。可还基于下面讨论的关于表6和表7的确定的编码类型和帧等级确定来选择FEC模式。
在一个或多个实施例中,确定进入高FER操作模式之后,在高FER操作模式内存在进一步选择用于对音频或语音信息进行编码的多个子模式。之后,在所述多个子模式中的一个或多个子模式下操作高FER操作模式,少量的比特可用于表示已选择了各个子模式中的哪个。仅作为示例,这些少量的比特可成为开销的一部分,并且它们可能可以是在当前或将来的第四代3GPP无线网络内的保留比特。
在实施例中,可仅需要RTP有效载荷中的一个比特来表示高FER操作模式;所述一个比特可被认为是高FER模式标记。作为示例,现有AMR-WB中的RTP有效载荷具有四个额外比特(按照八位位组模式),即,保留或未分配的比特。另外,一旦在高FER操作模式下,仅少量比特可需要被保留来表示子模式;这些比特可被认为是FEC模式标记。可使用与例如下面用于表3的等级A比特的冗余类似的冗余保护这些比特。
基于发送器的FEC算法通常使用侧信道来传输冗余信息。在一个或多个实施例中,在EVS编解码器26和它在EPS中使用的情况下,即使期望的EVS编解码器不提供这样的侧信道,一个或多个实施例也有效使用为LTE空中接口定义的传输块。对于每个操作模式,下面的表2示出通过选择下一个更高或第二下一个更高传输块大小(TBS)而可用的额外比特的数量。在实施例中,为了有效操作,可使用所有额外比特。
表2
通过发送与帧n无关的包中的与帧n相关的冗余比特或参数来实现帧丢失的鲁棒性。例如,帧n编码比特在包N中被发送,而与帧n相关的冗余比特在包N+1中被发送。这被称为时间分集。如果包N被擦除且包N+1幸存,则冗余比特可被用于隐藏或重建帧n。
图3示出根据一个或多个实施例的在替换包中提供的针对一个帧的冗余比特的示例。
在图3中,第一(左)包表示一般操作模式,即,EVS编解码器26的非高FER操作模式。所述包包括根据EVS编解码器26的12.65kbps操作模式编码的语音的帧。另外,存在大小74比特的RTP有效载荷报头,其与AMRWB编解码器RTP有效载荷的大小相同。中间包表示高FER操作模式下的传输机制,其中,118个FEC比特被包括在先前帧n-1的包中。现在具有冗余信息的中间包是472比特传输块的大小。第三包表示高FER操作模式下的包序列中的下一个,再次具有表示高FER操作模式下的传输机制的第三包,其中,118个FEC比特被包括在先前帧n的包中。因此,在一个或多个实施例中,在高FER操作模式数据内,至少一个替换包用于发送冗余信息。
图4示出根据一个或多个实施例的在两个替换包中提供的针对帧n的冗余比特的示例。
如图4中所示,每个包可包括用于各个帧的EVS编码源比特、用于两个不同先前帧的FEC比特。例如,包N+2包括EVS编码源比特、用于帧n+1的FEC比特和用于帧n的FEC比特。换种说法,在一个或多个实施例中,在两个下一个包N+1和N+2中传输用于帧n的冗余比特。
图5是根据一个或多个实施例的在帧n的包之前和之后的替换包中提供的针对帧n的冗余比特的示例。
在图5中,编码器插入延迟的额外帧,以将冗余比特放置在包含用于目标帧的EVS编码的源比特的包之前和之后的包中。图5的方法将额外的延迟从解码器转移到编码器。另外,图5的方法转移擦除模式,使得三重擦除导致用于序列中的中间擦除的冗余比特继续存在,而不是用于序列中的最早擦除的冗余比特继续存在。可选择的包可考虑邻近包,注意包括中间包之前或之后的非连续包的额外包和包括中间包之前或之后的非连续包的额外包可还被称为邻近包。
除了在一个或多个不同邻近包中的冗余比特的代替,冗余比特可基于他们的感知重要性选择性地包括有更多或更少冗余。
因此,在一个或多个实施例中,固定比特率的高FER操作模式使用不等冗余保护构思,其中,编码的语音比特根据他们的感知重要性使用更多、相同或更少的冗余被优先化并被保护。在使用3GPP编解码器AMR和AMR-WB的示例中,根据一个或多个实施例,编码比特被分类为多个等级,例如,等级A、B和C,其中,等级A比特对擦除最敏感,等级C比特对擦除最不敏感。根据应用使用电路交换传输还是分组交换换传输,存在用于保护这些比特的不同机制。
根据一个或多个实施例,不等冗余保护的提供可被延伸到源编码比特以及额外FEC侧信息两者。使用时间分集,按照冗余方式使用根据比特的等级的冗余量来传输不同等级的比特。
图6示出根据一个或多个实施例的分别基于源比特的不同分类的在替换包中的源比特的不等冗余。图6是表示图3至图5中示出的内容的另一方法。
如图6的实施例中所示,三个类型的比特已被定义。将分类为等级A的比特的源比特在三个连续包中冗余地传输三次。将分类为等级B的比特的源比特在两个连续包中冗余地传输两次。将分类为等级C的比特的源比特仅冗余地传输一次。在附图中,N表示包号并且n表示帧号。在图6的示例中,每个包具有相同大小,并除了RTP有效载荷以外,包含3×A+2×B+C比特。
具有足够的解码器(例如,解码单元250)的抖动缓存器深度,,解码器具有三个机会来对等级A的比特或参数进行解码,具有两个机会对等级B的比特或参数进行解码,并具有一个机会对等级C的比特或参数进行解码。作为结果,花费三个连续包擦除来丢失等级A的比特或参数,两个连续包擦除来丢失等级B的比特或参数。仅作为示例,可选择的实施例可至少包括将编码的源比特划分为更多或更少等级(例如(A,B)或(A,B,C,D))的方法、通过还冗余地传输等级C的比特来实现全冗余而不是部分冗余的方法、关注于不发送等级C的比特的期望的非常高效操作的方法以及为了效率的目的仅冗余地发送等级A的比特的方法。
因此,在一个或多个实施例中,除了在先前或后续邻近帧中包括用于当前帧的FEC比特以外,可基于优先级(诸如,根据他们的感知重要性)对源帧的比特进行分类。与不同地分类为具有更少感知重要性的相同源帧的比特或参数相比,具有最大感知重要性或如果丢失人耳更容易注意的源帧的比特或参数将在更多的邻近包中冗余地发送。
来自编码器的测信息可以是编码算法的一部分。如下面更详细的描述,所述侧信息可还被冗余地发送为其他比特或参数。
为了隐藏的目的,根据一个或多个实施例,解码器可不仅从编码的源比特的冗余副本受益,诸如图3至图6中,还可从针对解码器FEC算法专门设计的帧擦除隐藏(FEC)算法受益。仅作为示例,在ITU-T语音编解码器标准G.718中,16个FEC比特作为侧信息在编解码器的层3被发送(当层3可用时),并用于层1的隐藏目的。
仅作为示例,我们使用EVS编解码器26的6.6Kbps模式和下面表3示例中的来自G.718编解码器的侧信息。EVS编解码器26的6.6K模式包含132个源比特。另外,与G.718类似,我们定义2个用于FEC信令的额外比特和16个用于FEC侧信息的更多的比特。下面的表格示出根据一个或多个实施例的根据优先级的EVS源比特和FEC比特的示例分配。
表3
在上面表3的示例中,总共存在45+57+48个待传输比特。使用上面概括的冗余方法,每个包将包括总共3A+2B+Cbits,=297bits+74RTP有效载荷,总共371比特。这适合具有5个比特留下的大小376的示例传输块。这里,不同地分类的A、B和C比特可表示语音的不同地分类的参数,诸如,当编解码器基于操作模式操作为码激励线性预测(CELP)编解码器时的线性预测参数。
因此,根据一个或多个实施例,一旦已进行高FER操作模式,仅作为示例,根据可用宽带的量(能力)和期望的FEC保护(鲁棒性)存在若干可用子模式。这些参数可与例如需要的固有语音质量进行权衡。在一个或多个实施例中,并仅作为示例,存在六个子模式,每个子模块解决带宽(能力)、质量和错误鲁棒性的不同优先级。各种子模式的属性被列在下面的表4中。
在下面的示例中,我们假设仅冗余发送源比特(由等级A、等级B和等级C表示),并且不存在专用FEC比特。仅为了方便,在所有示例中假设RTP有效载荷大小为74。
表4
图7示出根据一个或多个实施例的具有不等冗余的示例FEC操作模式。很多子模式使用相同EVS编码模式,例如,如实现在非高FER模式语音模式中。在这个示例中,为了效率目的,选择最低模式,因为当在高FER操作模式下,鲁棒性和能力一般是最高的优先级。另外,由于解码器必须处理仅一个编码模式的FEC,因此使用相同EVS编码模式简化FEC算法。可选择地,如上面的讨论,可选择的实施例包括额外编码模式的使用。
如图7中所示,如从子模式1至子模式6的子模式处理,对于更大的包大小以适应不断增加的冗余的需求和期望越来越高。
图11阐述根据一个或多个实施例的在高FER模式下使用不同FEC操作模式对音频数据进行编码的方法。
如图11中所示,在操作1105,输入音频可被分析,并确定输入音频是语音音频还是非语音音频。如果输入音频是非语音音频,则可由非语音编解码器对输入音频进行编码。如果输入音频被确定为语音音频,则在操作1115,确定是否进入高FER模式。上面关于等式1的相关讨论提供做出关于是否进入高FER模式的确定的考虑的示例。如果在操作1115中的确定指示不应进入高FER模式,则在操作1120,针对EVS编解码器26选择用于语音编码的操作模式(例如,上述表1中讨论的操作模式中的一个)。一旦在操作1120中选择了用于语音编码的操作模式,则在操作1130,根据选择的用于语音编码的操作模式对输入音频进行编码。如果操作1115确定结果是进入高FER模式,则在操作1125,在可用的一个或多个FEC操作模式之中进行选择。之后,在操作1135,使用EVS编解码器26在选择的FEC操作模式下对输入音频进行编码。
相似地,图14示出根据一个或多个实施例的在高FER模式中使用不同FEC操作模式对音频数据进行解码的方法。在操作1405,可确定接收包中的编码帧是基于语音音频被编码还是非语音音频被编码。如果语音是非语音音频,则例如,在操作1410,将由EVS编解码器26执行用于对非语音音频进行解码的适当操作模式。如果接收包包括编码语音数据,则在操作1415,对包进行解析以确定用于语音解码的操作模式,所述确定包括确定帧是否在高FER模式下被编码。如果帧未在高FER模式下被编码,例如,如果未在接收包中设置高FER模式标记,则在操作1420,将选择语音解码的适当模式,并且EVS编解码器26将根据适当的语音解码模式来进行解码。如果在操作1415确定帧已在高FER模式下被编码,则在操作1425可对包进行解析来确定使用什么FEC操作模式来对帧进行编码。基于确定的FEC操作模式,EVS编解码器26可随后基于确定的FEC操作模式对帧进行解码。这里,在一个或多个实施例中,仅作为示例,图14的方法还包括在操作1405和操作1415之前或操作1405和操作1415期间确定包是否已丢失。基于根据一个或多个实施例的FEC框架,所述确定可包括指示EVS编解码器26使用下一个或先前包中的冗余信息,基于邻近包中的冗余信息重建丢失包或隐藏丢失包。
作为与图7不同的传输块大小的另一选择,可针对多个模式(诸如,在常规操作模式中使用的模式)保持相同的传输块大小。这具有不需要EPS系统来发出包大小改变的信号的优点,但导致了在高FER模式下使用若干EVS编解码器26模式的缺点。这个缺点源于隐藏算法具有更多待处理的编解码器模式而变得更复杂的事实。
图8示出根据一个或多个实施例的用于具有相同传输块大小的高FER模式的不同FEC操作模式。在此,不同FEC操作模式可被认为是高FER模式的子模式。在这个示例中,EVS编解码器2612.65Kbs操作模式被用作一般非高FER操作模式的示例。每个高FER子模式1-4保持328的相同传输块大小。冗余的增加伴随低源编码率。
与在电路交换传输中其他3GPP编解码器使用的先前方法(例如,其中多模式AMR和AMR-WB编解码器可基于信道条件转换他们的模式以降低或提高比特率)相反,图8示出在不同子模式中比特率被降低,因此,额外冗余或FEC比特可被包括,并且帧包大小被保持。
图12示出根据一个或多个实施例的基于针对所有FEC操作模式保持相同比特率还是包大小的FEC框架。
如图12中所示,在操作1125,选择FEC操作模式,并且在操作1135,由EVS编解码器26实现选择的FEC操作模式。如所示,操作1125可直接选择由操作1220或操作1230表示的FEC操作模式,或还可在操作1210确定是否期望相同比特率或相同包大小。如果操作1210指示确定了相同比特率或相同包大小,则操作1220可被执行,否则操作1230被执行。操作1230可认为与图7相似,其中,允许包大小变化。可选择地,在操作1220,来自邻近帧的编码的EVS源比特被添加到当前包的编码的EVS源比特的降低率模式。在操作1240,由于进入了高FER模式,并且选择了FEC操作模式,因此这个信息可被反映在编码帧的包中的标记中。仅作为示例,可使用包内部的单个比特来设置高FER模式,可仅使用2-3比特来设置选择的FER操作模式。
根据一个或多个实施例,在进入高FER操作模式之后保持相同传输块大小的另一方法包含称为码本“抢夺(robbing)”的过程,并当期望提供与表4和图8中的子模式1类似的少量冗余时有用。EVS编解码器26帧被划分子帧,并且针对每一子帧,码本比特的数量被计算为参数。码本比特的数量随编码模式的变化如下面表5中所示。
表5:
在这个实施例中,仅作为示例,如果EVS编解码器26常规操作模式是12.65Kbps,这种模式被保持为进入高FER操作模式。当在高FER操作模式下,即使操作模式实际是12.65Kbps,用于四个子帧中的一个的编码器也按照操作模式是8.85Kbps来计算码本。可由帧的比特或表示帧的音频的参数来表示子帧,诸如,当编解码器用作CELP编解码器时,使用由编解码器产生的码激励线性预测(CELP)编码的线性预测参数。如上面的表5中所示,20比特可被用于限定第一子帧至第三子帧的比特的码字,而不是在根据12.65Kbps操作模式计算码本比特的情况下所需要的36比特。通过这种码本“抢夺”方法节省的16比特被随后用于FEC目的。因为存在相同数量的比特,因此可按照与原始模式下相同包的大小执行FEC比特的传输。如在大多数高FER子模式下,存在与这种方法相关的一定质量劣化。
因此,与表4和图8的方法不同,其中,在高FER操作模式的每个子模式中,对于编解码器源编码,比特率顺序减少,表5示出不需要减少比特率,而是仅按照比特率是降低的比特率来计算码字。在图8中示出的FEC信息可包括与上述参照图1至图6中的任意冗余相似的冗余,包括上面在表3中描述的不等冗余。这里,仅作为示例,随着确定具有增加的冗余的子帧或参数比其他子帧或参数更重要,划分的子帧可被分别用于表3的A、B、C等中的每一个。
图13示出根据一个或多个实施例的三个示例FEC操作模式。如上述关于表3和图6的讨论,帧的比特或参数可例如,基于他们的感知重要性被分为多个等级。因此,在操作1310,帧可被划分或分开,使得比特被分类为不同等级或子帧,并且在操作1315,诸如图6和图7中,可在邻近帧中不等地提供每个等级或子帧的冗余信息。
可选择地,在操作1320,针对比对帧进行编码的相应操作模式的比特率更小的比特率,针对划分的或分开的比特或参数(例如,如分类为单独等级或分类为单独子帧中的每个),计算码本比特的数量。之后,在操作1330,可对基于计算的码本比特的数量对限定码字进行编码。
更进一步,在操作1340,与图6和图7类似,考虑到限定的码字,编码的单独等级或子帧的冗余信息可被不等地提供在邻近包中。
用于图3至图8和表3至表5的高FER操作模式的前述方法被设计为在语音帧遭遇擦除时利用下述事实:可使用比特或参数的等级与感知重要性之间的区别将语音帧划分为多个等级的比特或多个等级的参数。
然而,在一些语音编解码器中,包括G.718编解码器和期望的EVS候选编解码器,可根据语音的类型,使用多种编码类型对输入语音帧进行编码。在G.718编解码器和EVS候选编解码器两者中,为了FEC目的,编码的语音帧被进一步分类。这些帧的分类是基于编码类型和语音帧在语音帧的序列中的位置。
作为示例,下面的表6示出在G.718编码器和EVS候选编码器两者中使用的针对宽带语音的四个编码类型。
表6:
根据G.718编解码器,在侧信道中发送编码类型信息。然而,这个侧信道当前在期望的EVS编解码器候选中不可用。为了克服侧信道的这个缺陷,仅作为示例,可使用上面呈现并如表3中所示的构思将与G.718编解码器的方法类似的侧信息发送为FEC比特。考虑一帧分类类型对邻近帧分类类型的相关性,可仅使用两个比特发送五个编码类型。根据一个或多个实施例,仅作为示例,所述编码类型被示出在下面的表7中。
表7:
如上所示,表6中示出的包结构的变化用于使用根据语音帧的感知重要性变化的冗余量传输语音帧。可从表6中示出的编码类型、表7中示出的帧分类或考虑邻近帧并确定多个邻近帧之间的冗余比特的最佳权衡的一些算法,来确定帧的感知重要性。
根据一个或多个实施例,考虑图6的方法、表6的编码类型和表7的帧分类,可期望将约束添加到图6的包结构,因此,可基于编码类型或帧分类利用使用变化的冗余量的发送语音帧。在实施例中,约束可以是A等级的比特的数量等于C等级的比特的数量。
如图9中所示,使用这个方法,包的四个子类型可被用于冗余传输。
图9示出根据一个或多个实施例的基于A等级的比特的数量等于C等级的比特的数量的约束,可用于冗余传输的包的四个子类型。
在这个示例中,图9的包类型“1”是与图6的冗余传输中使用的相同的包排列。例如,对于图6的包N,使用An、Bn、Cn、An-1、Bn-1和An-2的编码的源比特。
图10示出根据一个或多个实施例的对起始帧提供增强保护的各种包的子类型。
使用从图9的四个包子类型的数据包子类型的选择,根据具体帧的感知重要性,编码的语音帧可被选择用于更高或更低冗余保护。在图10中示出各种包的子类型的使用来提供起始帧的增强保护(以邻近帧为代价)。
在图10的示例中,包N-1包含起始帧,从感知角度已知对擦除高度敏感的帧分类。帧n-1的冗余保护被包含在包N和包N+1中。因此,包N被选择为是子类型0,包N+1被选择为是子类型3。这导致帧n-1的增强的冗余保护。
如图10中所示,帧n-1按照它全部的三个连续时间被发送。这增加的保护以帧n-2和帧n的保护为代价。通常,如果帧n-1是起始,帧n-2是无声帧,则帧类型需要较少的保护。根据一个或多个实施例,四个包子类型的使用可需要两个信令比特的发送。作为示例,这些比特可被发送为如表3中所示的等级AFEC比特。
鉴于上述,图2a和图2b提出配置用于使用在此提出的FEC算法对音频数据进行编码或解码的一个或多个终端200。终端200可被实现在图1的EPS和/或EVS编解码器26环境中。可选择的环境和编解码器同样可用。
另外,如图2b的终端200,一个或多个环境包括源终端、接收终端或可执行编码和/或解码操作的中间编码/解码终端(例如,分别如编码终端100、解码终端150,或在网络140提供的两个终端之间的网络路径中)。一个或多个实施例包括按照不同协议(例如,通过不同网络类型,诸如,仅作为示例用于蜂窝电话的地线电话通信系统、数据通信网络或无线电话或数据通信网络)接收和/或发送音频数据的终端200。终端200的一个或多个实施例包括通过实时广播和多路广播的VOIP应用和系统以及远程会议应用和系统,和时延的、存储的或流传输的音频应用和系统。编码的音频数据可被记录用于以后的播放并从流传输的广播或存储的音频数据解码。
所述一个或多个终端200的一个或多个实施例包括例如地线电话、移动电话、个人数据助理、智能电话、平板计算机、机顶盒、网络终端、膝上型计算机、台式计算机、服务器、路由器或网关。终端200包括至少一个处理装置,诸如,仅作为示例,数字信号处理器(DSP)、主控制单元(MCU)或CPU。
根据实施例,仅作为非限制示例,无线网络140是无线个人局域网(WPAN)(例如通过蓝牙或IR通信)、无线LAN(如在IEEE802.11中)、无线城域网、任意WiMax网络(如在IEEE802.16中)、任意WiBro网络(诸如在IEEE802.16e中)、网络、全球移动通信系统(GSM)、个人通信服务(PCS)以及任意3GGP网络系统(仅作为示例)中的任意一个。有线网络可以是任意基于地线和/或卫星的电话网络,有线电视或互联网接入、光纤通信、波导(电磁)、任意以太网通信网络、任意综合业务数字网(ISDN)网络、任意数字用户线(DSL)网络(诸如,任意ISDN数字用户线(IDSL)网络、任意高比特率数字用户线(HDSL)网络、任意对称数字用户线(SDSL)网络、任意非对称数字用户线(ADSL)网络、任意本地交换运营商(ILECs)提供速率自适应数字用户线(RADSL)网络、任意VDSL网络)和任意交换式数字服务(非IP)和POTS系统。源终端可与网络140进行通信,其中所述网络140和与接收终端通信的网络140不同,音频数据可通过两个以上不同网络140与位于音频源和音频接收器140之间的路径上的任意点处的终端进行通信。一个或多个实施例包括一个或多个实施例的具有FEC信息的音频数据的任意编码、传输、存储和/或解码,并且音频数据可被包装在适合携带音频数据的传输协议的包中。
传输协议可以是能够支持RTP包或HTTP包的任意协议,仅作为示例,所述RTP包或HTTP包可分别具有至少一个报头、内容的列表和有效负载数据,仅作为示例,并可选地是任何TCP协议、UDP协议、循环UDP协议、DCCP协议、光纤通道协议、NetBIOS协议、可靠数据报协议、RDP、SCTP协议、顺序包交换(SPX)、结构流传输(SST)、VSP协议、异步传输模式(ATM)、多用途交易协议(MTP/IP)、微型传输协议(TP)和/或LTE。一个或多个实施例包括质量服务(QoS)的通信(例如,到/从解码终端150和编码终端100),并且可通过任意路径或协议来发送QoS,仅作为示例,包括RTCP或与音频数据传输路径分离的路径。也可基于包括在数据包中的错误检查代码来确定QoS。一个或多个实施例包括在应用一个或多个实施例的FEC方法时改变编码比特率和/或编码模式,例如包括基于QoS改变FEC模式。
一个或多个实施例包括使用一个或多个阈值来比较QoS,以确定是否适用一个或多个实施例的FEC方法,和/或应适用一个或多个实施例的FEC方法的什么模式。对每个比较可存在多于一个的阈值,包括:如果QoS<或<=Th1,则指示针对更高可靠性需要调整FEC模式的阈值降低或增加,,并且如果QoS>或>=Th2,指示为了较低可靠性需要调整比特流或FEC模式的阈值降低或增加,其中,THi和TH2在实施例中相等。
一个或多个实施例包括由编码终端100和/或解码终端150使用的使用一个或多个实施例的FEC方法对音频数据进行编码的任意音频编解码器,其中,使用一个或多个算法进行音频编码,其中,所述算法使用LPC(LAR,LSP)、WLPC、CELP、ACELP、A-law、-law、ADPCM、DPCM、MDCT、比特率控制(CBR,ABR,VBR)和/或子带编码,并可以是能够合并一个或多个实施例的FEC方法的任意编解码器,仅作为示例,包括AMR、AMR-WB(G.722.2)、AMR-WB+、GSM-HR、GSM-FR、GSM-EFR、G.718以及任意3GPP编解码器,包括任意EVS编解码器。在一个或多个实施例中,使用的编解码器与所述编解码器的至少一个先前版本后向兼容。由编码终端100产生的编码音频数据包可包括根据由编码器端编解码器120的多于一个编解码器编码的音频数据,并可包括可由编码器低音混合的单声道信号的超带宽音频(SWB)、也可由编码器低音混合的双声道立体音频数据、全带宽音频(FB)和/或多信道音频。一个或多个实施例包括使用相同或不同比特率对一个或多个不同类型的音频数据进行编码。在一个或多个实施例中,编码终端150被配置为对这样编码的音频数据包进行相似地解析。因此,终端200的一个或多个实施例包括执行不变、多率和/或可变编码或通信路径内的翻译的编解码器,和/或包括执行任意可伸缩编码(诸如,使用可具有相同采样率或不同采样率的多层或增强层)的编解码器。在一个或多个实施例中,解码器包括抖动缓冲器。编码器端编解码器120可包括空间参数估计和单声道或双声道低音混合,以及上述列出的音频编解码器中的一个或多个来产生一个或多个不同音频数据,解码器端编解码器150可包括相应的编解码器以及基于估计参数的解码的单声道或双声道上混和空间渲染。
在一个或多个实施例中,这里任意设备、系统和单元描述包括一个或多个硬件装置或硬件处理元件。例如,在一个或多个实施例中,任意描述的设备、系统和单元还可包括一个或多个可期望的存储器,并且任意期望的硬件输入/输出发送装置。另外,术语设备应被认为与物理系统的元件同义,不限于单个装置或机壳或在所有实施例中的单个各个机壳中实现的所有描述元件,而是根据实施例,开放通过不同硬件元件在不同机壳和/或位置一些或分离实现。
除了上述实施例,实施例还可在非暂时性介质中通过计算机可读代码/指令被实现,例如,用于控制至少一个处理装置的计算机可读介质(诸如,处理器或计算机)来实现任意上述实施例。所述介质可与允许计算机可读代码的存储和/或传输的任意定义的、可测量的和有形结构相应。
所述介质可还包括与计算机可读代码结合的数据文件和数据结构等。计算机可读介质的一个或多个实施例包括:磁介质(诸如硬盘、软盘和磁带);光学介质(诸如CD-ROM盘和DVD);磁光介质(诸如光盘)以及专门配置为存储和执行程序指令的硬件装置(诸如只读存储器(ROM),随机存取存储器(RAM)、闪存等)。计算机可读代码可包括例如机器代码(诸如由编译器产生的代码)和包含可由计算机使用解释器执行的高级代码的文件两者。介质还可以是任意定义的、可测量的和有形的分布式网络,使得计算机可读代码以分布式方式存储和执行。另外,仅作为示例,处理元件可包括处理器或计算机处理器,并且处理元件可被分布和/或包括在单一装置中。
仅作为示例,所述计算机可读介质还可被实现为至少一个专用集成电路(ASIC)或现场可编程门阵列(FPGA),其执行(例如,像处理器一样处理)程序指令。
虽然已参照本发明的不同实施例具体示出和描述了本发明的各个方面,但应理解,这些实施例应被认为是描述性的意义,而不是限制的目的。每个实施例内的特征或方面的描述通常应被认为可用于其余实施例中的其它类似特征或方面。如果以不同的顺序执行描述的技术和/或如果描述的系统、架构、装置或电路中的部件以不同的方式组合和/或由其它的部件或其等同物代替或补充,则可同样实现合适的结果。
因此,虽然已经示出和描述了一些实施例,但是另外的实施例同样可用,本领域的技术人员应理解在不脱离本发明的原理和精神的情况下,可在这些实施例中做出改变,本发明的范围在权利要求书及其等同物中限定。
Claims (1)
1.一种用于对音频进行编码的方法,所述方法包括:
设置编解码器的操作模式,其中,所述操作模式与高帧擦除率(FER)条件相关联;
将当前帧的部分冗余数据添加到至少一个邻近帧。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161474140P | 2011-04-11 | 2011-04-11 | |
US61/474,140 | 2011-04-11 | ||
US13/443,204 US9026434B2 (en) | 2011-04-11 | 2012-04-10 | Frame erasure concealment for a multi rate speech and audio codec |
US13/443,204 | 2012-04-10 | ||
KR1020120037625A KR20120115961A (ko) | 2011-04-11 | 2012-04-11 | 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치 |
CN201280028806.0A CN103597544B (zh) | 2011-04-11 | 2012-04-11 | 用于多码率语音和音频编解码器的帧擦除隐藏 |
KR10-2012-0037625 | 2012-04-11 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280028806.0A Division CN103597544B (zh) | 2011-04-11 | 2012-04-11 | 用于多码率语音和音频编解码器的帧擦除隐藏 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105161115A true CN105161115A (zh) | 2015-12-16 |
CN105161115B CN105161115B (zh) | 2020-06-30 |
Family
ID=47007092
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510591594.2A Active CN105161115B (zh) | 2011-04-11 | 2012-04-11 | 用于多码率语音和音频编解码器的帧擦除隐藏 |
CN201510591229.1A Active CN105161114B (zh) | 2011-04-11 | 2012-04-11 | 用于多码率语音和音频编解码器的帧擦除隐藏 |
CN201280028806.0A Active CN103597544B (zh) | 2011-04-11 | 2012-04-11 | 用于多码率语音和音频编解码器的帧擦除隐藏 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510591229.1A Active CN105161114B (zh) | 2011-04-11 | 2012-04-11 | 用于多码率语音和音频编解码器的帧擦除隐藏 |
CN201280028806.0A Active CN103597544B (zh) | 2011-04-11 | 2012-04-11 | 用于多码率语音和音频编解码器的帧擦除隐藏 |
Country Status (6)
Country | Link |
---|---|
US (5) | US9026434B2 (zh) |
EP (2) | EP3553778A1 (zh) |
JP (2) | JP6386376B2 (zh) |
KR (3) | KR20120115961A (zh) |
CN (3) | CN105161115B (zh) |
WO (1) | WO2012141486A2 (zh) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197488B (zh) | 2011-06-09 | 2020-05-22 | 松下电器(美国)知识产权公司 | 通信终端装置、通信方法以及集成电路 |
US8914713B2 (en) * | 2011-09-23 | 2014-12-16 | California Institute Of Technology | Erasure coding scheme for deadlines |
US9275644B2 (en) * | 2012-01-20 | 2016-03-01 | Qualcomm Incorporated | Devices for redundant frame coding and decoding |
CN103827964B (zh) * | 2012-07-05 | 2018-01-16 | 松下知识产权经营株式会社 | 编解码系统、解码装置、编码装置以及编解码方法 |
CN103812824A (zh) * | 2012-11-07 | 2014-05-21 | 中兴通讯股份有限公司 | 音频多编码传输方法及相应装置 |
EP2922053B1 (en) | 2012-11-15 | 2019-08-28 | NTT Docomo, Inc. | Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program |
WO2014108738A1 (en) * | 2013-01-08 | 2014-07-17 | Nokia Corporation | Audio signal multi-channel parameter encoder |
JP6179122B2 (ja) * | 2013-02-20 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
EP2976768A4 (en) * | 2013-03-20 | 2016-11-09 | Nokia Technologies Oy | AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR |
US9313250B2 (en) * | 2013-06-04 | 2016-04-12 | Tencent Technology (Shenzhen) Company Limited | Audio playback method, apparatus and system |
CN104282309A (zh) | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
GB201316575D0 (en) | 2013-09-18 | 2013-10-30 | Hellosoft Inc | Voice data transmission with adaptive redundancy |
US10614816B2 (en) * | 2013-10-11 | 2020-04-07 | Qualcomm Incorporated | Systems and methods of communicating redundant frame information |
CN104751849B (zh) | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN106104684A (zh) | 2014-01-13 | 2016-11-09 | 诺基亚技术有限公司 | 多通道音频信号分类器 |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
CN107369454B (zh) * | 2014-03-21 | 2020-10-27 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN113259058B (zh) * | 2014-04-21 | 2024-07-09 | 三星电子株式会社 | 用于在无线通信系统中发射和接收语音数据的装置和方法 |
US9401150B1 (en) * | 2014-04-21 | 2016-07-26 | Anritsu Company | Systems and methods to detect lost audio frames from a continuous audio signal |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
US20160323425A1 (en) * | 2015-04-29 | 2016-11-03 | Qualcomm Incorporated | Enhanced voice services (evs) in 3gpp2 network |
WO2017055091A1 (en) * | 2015-10-01 | 2017-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for removing jitter in audio data transmission |
US10142049B2 (en) | 2015-10-10 | 2018-11-27 | Dolby Laboratories Licensing Corporation | Near optimal forward error correction system and method |
US10504525B2 (en) * | 2015-10-10 | 2019-12-10 | Dolby Laboratories Licensing Corporation | Adaptive forward error correction redundant payload generation |
US10057393B2 (en) * | 2016-04-05 | 2018-08-21 | T-Mobile Usa, Inc. | Codec-specific radio link adaptation |
US10447430B2 (en) | 2016-08-01 | 2019-10-15 | Sony Interactive Entertainment LLC | Forward error correction for streaming data |
CN108011686B (zh) * | 2016-10-31 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 信息编码帧丢失恢复方法和装置 |
GB201620317D0 (en) * | 2016-11-30 | 2017-01-11 | Microsoft Technology Licensing Llc | Audio signal processing |
US10043523B1 (en) | 2017-06-16 | 2018-08-07 | Cypress Semiconductor Corporation | Advanced packet-based sample audio concealment |
US10594756B2 (en) * | 2017-08-22 | 2020-03-17 | T-Mobile Usa, Inc. | Network configuration using dynamic voice codec and feature offering |
US10778729B2 (en) | 2017-11-07 | 2020-09-15 | Verizon Patent And Licensing, Inc. | Codec parameter adjustment based on call endpoint RF conditions in a wireless network |
US10652121B2 (en) * | 2018-02-26 | 2020-05-12 | Genband Us Llc | Toggling enhanced mode for a codec |
EP3553777B1 (en) * | 2018-04-09 | 2022-07-20 | Dolby Laboratories Licensing Corporation | Low-complexity packet loss concealment for transcoded audio signals |
US10475456B1 (en) * | 2018-06-04 | 2019-11-12 | Qualcomm Incorporated | Smart coding mode switching in audio rate adaptation |
WO2019232755A1 (zh) * | 2018-06-07 | 2019-12-12 | 华为技术有限公司 | 数据传输的方法和装置 |
WO2020164753A1 (en) | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method selecting an error concealment mode, and encoder and encoding method |
KR102749955B1 (ko) | 2019-02-19 | 2025-01-03 | 삼성전자주식회사 | 오디오 데이터 처리 방법 및 이를 위한 전자 장치 |
CN110838894B (zh) * | 2019-11-27 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、计算机可读存储介质和计算机设备 |
CN114070458B (zh) * | 2020-08-04 | 2023-07-11 | 成都鼎桥通信技术有限公司 | 数据传输方法、装置、设备及存储介质 |
CN116529814A (zh) * | 2020-10-15 | 2023-08-01 | 沃伊斯亚吉公司 | 用于音频编解码器中的音频带宽检测和音频带宽切换的方法和设备 |
CN112270928B (zh) * | 2020-10-28 | 2024-06-11 | 北京百瑞互联技术股份有限公司 | 一种降低音频编码器码率的方法、装置及存储介质 |
CN112953934B (zh) * | 2021-02-08 | 2022-07-08 | 重庆邮电大学 | Dab低延迟实时语音广播的方法及系统 |
CN116073946A (zh) * | 2021-11-01 | 2023-05-05 | 中兴通讯股份有限公司 | 抗丢包方法、装置、电子设备及存储介质 |
CN114333860B (zh) * | 2021-12-30 | 2024-08-02 | 南京西觉硕信息科技有限公司 | 基于gsm_efr实现语音编码不变的方法、装置及系统 |
WO2024072034A1 (ko) * | 2022-09-30 | 2024-04-04 | 현대자동차주식회사 | 비지상 네트워크에서 음성 패킷의 코딩 방법 및 장치 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020046021A1 (en) * | 1999-12-10 | 2002-04-18 | Cox Richard Vandervoort | Frame erasure concealment technique for a bitstream-based feature extractor |
CN1441949A (zh) * | 2000-05-11 | 2003-09-10 | 艾利森电话股份有限公司 | 语音编码中的前向纠错 |
CN1451155A (zh) * | 1999-09-22 | 2003-10-22 | 科恩格森特系统股份有限公司 | 多模式语音编码器 |
EP1383246A2 (en) * | 2002-07-19 | 2004-01-21 | Samsung Electronics Co., Ltd. | Modified Max-LOG-MAP Decoder for Turbo Decoding |
US20050228651A1 (en) * | 2004-03-31 | 2005-10-13 | Microsoft Corporation. | Robust real-time speech codec |
CN1857014A (zh) * | 2003-09-26 | 2006-11-01 | 摩托罗拉公司 | 功率减少方法 |
CN1910844A (zh) * | 2003-01-14 | 2007-02-07 | 美商内数位科技公司 | 使用已感知信号对噪声及干扰指示器网络管理的方法及装置 |
CN1961495A (zh) * | 2003-06-18 | 2007-05-09 | 摩托罗拉公司 | 移动链路功率控制方法 |
CN101242212A (zh) * | 2007-02-07 | 2008-08-13 | 索尼德国有限责任公司 | 在无线通信系统中传输信号的方法和通信系统 |
US20090070107A1 (en) * | 2006-03-17 | 2009-03-12 | Matsushita Electric Industrial Co., Ltd. | Scalable encoding device and scalable encoding method |
WO2010141762A1 (en) * | 2009-06-04 | 2010-12-09 | Qualcomm Incorporated | Systems and methods for preventing the loss of information within a speech frame |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH069346B2 (ja) * | 1983-10-19 | 1994-02-02 | 富士通株式会社 | 同期伝送のための周波数変換方法 |
US4545052A (en) * | 1984-01-26 | 1985-10-01 | Northern Telecom Limited | Data format converter |
US4769833A (en) * | 1986-03-31 | 1988-09-06 | American Telephone And Telegraph Company | Wideband switching system |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
CA2142391C (en) * | 1994-03-14 | 2001-05-29 | Juin-Hwey Chen | Computational complexity reduction during frame erasure or packet loss |
US5835486A (en) * | 1996-07-11 | 1998-11-10 | Dsc/Celcore, Inc. | Multi-channel transcoder rate adapter having low delay and integral echo cancellation |
FI104138B (fi) * | 1996-10-02 | 1999-11-15 | Nokia Mobile Phones Ltd | Järjestelmä puhelun välittämiseksi sekä matkaviestin |
US6157830A (en) * | 1997-05-22 | 2000-12-05 | Telefonaktiebolaget Lm Ericsson | Speech quality measurement in mobile telecommunication networks based on radio link parameters |
US6347217B1 (en) * | 1997-05-22 | 2002-02-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Link quality reporting using frame erasure rates |
US5949822A (en) * | 1997-05-30 | 1999-09-07 | Scientific-Atlanta, Inc. | Encoding/decoding scheme for communication of low latency data for the subcarrier traffic information channel |
US6167060A (en) * | 1997-08-08 | 2000-12-26 | Clarent Corporation | Dynamic forward error correction algorithm for internet telephone |
CA2263277A1 (en) * | 1998-03-04 | 1999-09-04 | International Mobile Satellite Organization | Carrier activation for data communications |
FI107979B (fi) * | 1998-03-18 | 2001-10-31 | Nokia Mobile Phones Ltd | Järjestelmä ja laite matkaviestinverkon palvelujen hyödyntämiseksi |
FI981508L (fi) * | 1998-06-30 | 1999-12-31 | Nokia Mobile Phones Ltd | Menetelmä, laite ja järjestelmä käyttäjän tilan arvioimiseksi |
GB9923069D0 (en) * | 1999-09-29 | 1999-12-01 | Nokia Telecommunications Oy | Estimating an indicator for a communication path |
US6510407B1 (en) * | 1999-10-19 | 2003-01-21 | Atmel Corporation | Method and apparatus for variable rate coding of speech |
US7574351B2 (en) | 1999-12-14 | 2009-08-11 | Texas Instruments Incorporated | Arranging CELP information of one frame in a second packet |
US20010041981A1 (en) * | 2000-02-22 | 2001-11-15 | Erik Ekudden | Partial redundancy encoding of speech |
US6757860B2 (en) * | 2000-08-25 | 2004-06-29 | Agere Systems Inc. | Channel error protection implementable across network layers in a communication system |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
DE60100131T2 (de) | 2000-09-14 | 2003-12-04 | Lucent Technologies Inc., Murray Hill | Verfahren und Vorrichtung zur Diversity-Betriebsteuerung in der Sprachübertragung |
JP2002202799A (ja) * | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
US7212511B2 (en) * | 2001-04-06 | 2007-05-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems and methods for VoIP wireless terminals |
US20030191862A1 (en) * | 2001-07-02 | 2003-10-09 | Globespan Virata Incorporated | Communications system using rings architecture |
KR100603909B1 (ko) * | 2001-08-27 | 2006-07-24 | 노키아 코포레이션 | 절반 비율 채널을 통한 적응성 다중 비율 신호 프레임의전송 방법 및 시스템 |
EP1481482B1 (en) * | 2002-02-28 | 2012-05-23 | TELEFONAKTIEBOLAGET LM ERICSSON (publ) | Signal receiver devices and methods |
CA2388439A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7133521B2 (en) * | 2002-10-25 | 2006-11-07 | Dilithium Networks Pty Ltd. | Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain |
US20040141572A1 (en) * | 2003-01-21 | 2004-07-22 | Johnson Phillip Marc | Multi-pass inband bit and channel decoding for a multi-rate receiver |
US7299402B2 (en) * | 2003-02-14 | 2007-11-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Power control for reverse packet data channel in CDMA systems |
US7123590B2 (en) * | 2003-03-18 | 2006-10-17 | Qualcomm Incorporated | Method and apparatus for testing a wireless link using configurable channels and rates |
US20050049853A1 (en) | 2003-09-01 | 2005-03-03 | Mi-Suk Lee | Frame loss concealment method and device for VoIP system |
JP4365653B2 (ja) | 2003-09-17 | 2009-11-18 | パナソニック株式会社 | 音声信号送信装置、音声信号伝送システム及び音声信号送信方法 |
US20050091047A1 (en) * | 2003-10-27 | 2005-04-28 | Gibbs Jonathan A. | Method and apparatus for network communication |
US7613607B2 (en) * | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
JP4445328B2 (ja) | 2004-05-24 | 2010-04-07 | パナソニック株式会社 | 音声・楽音復号化装置および音声・楽音復号化方法 |
SE0402372D0 (sv) * | 2004-09-30 | 2004-09-30 | Ericsson Telefon Ab L M | Signal coding |
WO2006066149A2 (en) * | 2004-12-17 | 2006-06-22 | Tekelec | Methods, systems, and computer program products for clustering and communicating between internet protocol multimedia subsystem (ims) entities |
US7440399B2 (en) * | 2004-12-22 | 2008-10-21 | Qualcomm Incorporated | Apparatus and method for efficient transmission of acknowledgments |
US7519535B2 (en) | 2005-01-31 | 2009-04-14 | Qualcomm Incorporated | Frame erasure concealment in voice communications |
WO2007019872A1 (en) * | 2005-08-16 | 2007-02-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Individual codec pathway impairment indicator for use in a communication system |
US20070124494A1 (en) * | 2005-11-28 | 2007-05-31 | Harris John M | Method and apparatus to facilitate improving a perceived quality of experience with respect to delivery of a file transfer |
US20090248404A1 (en) * | 2006-07-12 | 2009-10-01 | Panasonic Corporation | Lost frame compensating method, audio encoding apparatus and audio decoding apparatus |
US20080077410A1 (en) * | 2006-09-26 | 2008-03-27 | Nokia Corporation | System and method for providing redundancy management |
JP5618826B2 (ja) | 2007-06-14 | 2014-11-05 | ヴォイスエイジ・コーポレーション | Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 |
US8428938B2 (en) * | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
-
2012
- 2012-04-10 US US13/443,204 patent/US9026434B2/en active Active
- 2012-04-11 JP JP2014505075A patent/JP6386376B2/ja active Active
- 2012-04-11 EP EP19177607.9A patent/EP3553778A1/en not_active Withdrawn
- 2012-04-11 WO PCT/KR2012/002738 patent/WO2012141486A2/en active Application Filing
- 2012-04-11 CN CN201510591594.2A patent/CN105161115B/zh active Active
- 2012-04-11 EP EP12771666.0A patent/EP2684189A4/en not_active Ceased
- 2012-04-11 CN CN201510591229.1A patent/CN105161114B/zh active Active
- 2012-04-11 KR KR1020120037625A patent/KR20120115961A/ko not_active Ceased
- 2012-04-11 CN CN201280028806.0A patent/CN103597544B/zh active Active
-
2015
- 2015-04-20 US US14/691,191 patent/US9286905B2/en active Active
-
2016
- 2016-03-14 US US15/069,473 patent/US9564137B2/en active Active
- 2016-12-09 JP JP2016239874A patent/JP6546897B2/ja active Active
-
2017
- 2017-02-06 US US15/425,256 patent/US9728193B2/en active Active
- 2017-08-07 US US15/670,653 patent/US10424306B2/en active Active
-
2019
- 2019-06-19 KR KR1020190073157A patent/KR20190076933A/ko not_active Ceased
-
2020
- 2020-05-04 KR KR1020200053476A patent/KR20200050940A/ko not_active Ceased
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1451155A (zh) * | 1999-09-22 | 2003-10-22 | 科恩格森特系统股份有限公司 | 多模式语音编码器 |
US20020046021A1 (en) * | 1999-12-10 | 2002-04-18 | Cox Richard Vandervoort | Frame erasure concealment technique for a bitstream-based feature extractor |
CN1441949A (zh) * | 2000-05-11 | 2003-09-10 | 艾利森电话股份有限公司 | 语音编码中的前向纠错 |
EP1383246A2 (en) * | 2002-07-19 | 2004-01-21 | Samsung Electronics Co., Ltd. | Modified Max-LOG-MAP Decoder for Turbo Decoding |
CN1910844A (zh) * | 2003-01-14 | 2007-02-07 | 美商内数位科技公司 | 使用已感知信号对噪声及干扰指示器网络管理的方法及装置 |
CN1961495A (zh) * | 2003-06-18 | 2007-05-09 | 摩托罗拉公司 | 移动链路功率控制方法 |
CN1857014A (zh) * | 2003-09-26 | 2006-11-01 | 摩托罗拉公司 | 功率减少方法 |
US20050228651A1 (en) * | 2004-03-31 | 2005-10-13 | Microsoft Corporation. | Robust real-time speech codec |
US20090070107A1 (en) * | 2006-03-17 | 2009-03-12 | Matsushita Electric Industrial Co., Ltd. | Scalable encoding device and scalable encoding method |
CN101242212A (zh) * | 2007-02-07 | 2008-08-13 | 索尼德国有限责任公司 | 在无线通信系统中传输信号的方法和通信系统 |
WO2010141762A1 (en) * | 2009-06-04 | 2010-12-09 | Qualcomm Incorporated | Systems and methods for preventing the loss of information within a speech frame |
Also Published As
Publication number | Publication date |
---|---|
KR20120115961A (ko) | 2012-10-19 |
US20120265523A1 (en) | 2012-10-18 |
EP2684189A2 (en) | 2014-01-15 |
US10424306B2 (en) | 2019-09-24 |
EP2684189A4 (en) | 2014-08-20 |
US9564137B2 (en) | 2017-02-07 |
US9026434B2 (en) | 2015-05-05 |
KR20190076933A (ko) | 2019-07-02 |
US20170148448A1 (en) | 2017-05-25 |
JP2014512575A (ja) | 2014-05-22 |
KR20200050940A (ko) | 2020-05-12 |
US9728193B2 (en) | 2017-08-08 |
WO2012141486A3 (en) | 2013-03-14 |
CN105161115B (zh) | 2020-06-30 |
EP3553778A1 (en) | 2019-10-16 |
JP6386376B2 (ja) | 2018-09-05 |
CN103597544B (zh) | 2015-10-21 |
CN105161114B (zh) | 2021-09-14 |
WO2012141486A2 (en) | 2012-10-18 |
JP6546897B2 (ja) | 2019-07-17 |
CN105161114A (zh) | 2015-12-16 |
US20160196827A1 (en) | 2016-07-07 |
US9286905B2 (en) | 2016-03-15 |
JP2017097353A (ja) | 2017-06-01 |
US20150228291A1 (en) | 2015-08-13 |
CN103597544A (zh) | 2014-02-19 |
US20170337925A1 (en) | 2017-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103597544B (zh) | 用于多码率语音和音频编解码器的帧擦除隐藏 | |
JP6151405B2 (ja) | クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
KR101160218B1 (ko) | 일련의 데이터 패킷들을 전송하기 위한 장치와 방법, 디코더, 및 일련의 데이터 패킷들을 디코딩하기 위한 장치 | |
US20090168673A1 (en) | Method and apparatus for detecting and suppressing echo in packet networks | |
CN107077851A (zh) | 使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |