[go: up one dir, main page]

CN110797035B - 选择分组丢失隐藏过程的方法、设备和计算机可读装置 - Google Patents

选择分组丢失隐藏过程的方法、设备和计算机可读装置 Download PDF

Info

Publication number
CN110797035B
CN110797035B CN201911211452.3A CN201911211452A CN110797035B CN 110797035 B CN110797035 B CN 110797035B CN 201911211452 A CN201911211452 A CN 201911211452A CN 110797035 B CN110797035 B CN 110797035B
Authority
CN
China
Prior art keywords
received audio
audio frame
signal
host device
spectral envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911211452.3A
Other languages
English (en)
Other versions
CN110797035A (zh
Inventor
斯蒂芬·布鲁恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN110797035A publication Critical patent/CN110797035A/zh
Application granted granted Critical
Publication of CN110797035B publication Critical patent/CN110797035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Environmental & Geological Engineering (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

根据本发明的示例实施例,公开了一种用于针对接收音频信号的丢失音频帧选择分组丢失隐藏过程的方法及其装置。一种用于选择分组丢失隐藏过程的方法,包括:检测接收音频帧的音频类型;以及基于音频类型确定分组丢失隐藏过程。在所述方法中,检测音频类型包括确定接收音频帧的信号频谱包络的稳定性。

Description

选择分组丢失隐藏过程的方法、设备和计算机可读装置
本申请是申请日为2015年5月12日的PCT国际申请PCT/SE2015/050530的中国阶段申请201580026185.6的分案申请。
技术领域
本发明涉及音频解码,更具体地涉及在音频解码中选择分组丢失隐藏过程。
背景技术
蜂窝通信网络朝向更高的数据速率演进,同时具有改进的容量和覆盖。在第三代合作伙伴项目(3GPP)标准主体中,已经开发了并当前也正在开发若干技术。
LTE(长期演进)是新近的标准化技术。它使用基于针对下行链路的OFDM(正交频分复用)和针对上行链路的单载波FDMA(SC-FDMA)的接入技术。考虑每个无线终端的即时业务模式和无线电传播特征,通常使用快速调度自适应地执行下行链路和上行链路二者上对无线终端(也被称为用户设备,UE)的资源分配。在位于无线电基站中的调度器中执行在下行链路和上行链路二者中指派资源。
针对音频数据的传输,对于通过无线接口的所有数据而言,存在例如由于路径损耗、干扰等数据丢失的情况。当音频帧丢失时,接收音频解码器能够检测丢失的音频帧,并且然后能够执行分组丢失隐藏(PLC)过程以生成尽可能好地减小丢失分组对音频的影响的音频。
然而,存在几种可能的PLC过程,并且在不同的情况下正确地选择使用什么PLC过程将会是有益的。
发明内容
为了解决上述问题中的至少一些,提供了选择分组丢失隐藏过程的方法、设备和计算机可读装置。
根据一方面,提供了一种用于选择分组丢失隐藏过程的方法,所述方法包括:通过确定接收音频帧的信号频谱包络的稳定性来将接收音频帧分类为语音或音乐,其中,使用马尔可夫链来增加分类的稳定性;以及至少部分基于语音/音乐分类来确定分组丢失隐藏过程。
根据另一方面,提供了用于选择分组丢失隐藏过程的主机设备,所述主机设备包括:处理器;以及存储指令的存储器。所述指令当由所述处理器执行时,使所述主机设备:通过确定接收音频帧的信号频谱包络的稳定性来将接收音频帧分类为语音或音乐,其中,使用马尔可夫链来增加分类的稳定性;以及至少部分基于语音/音乐分类来确定分组丢失隐藏过程。
根据另一方面,提供了一种计算机可读装置,存储包括指令的计算机程序,所述指令当由处理器执行时使所述处理器执行上述方法。
通过上述方案,能够在不同的情况下正确地选择所使用的PLC过程。
附图说明
现在参照附图以示例方式描述本发明,附图中:
图1是示出了可以应用本文提出的实施例的蜂窝网的示意图;
图2是示出去往图1的无线终端的音频帧传输的示意图;
图3是示出接收音频帧的信号频谱包络的示意图形;
图4A-图4B是示出在图1的主机设备中执行的用于选择分组丢失隐藏过程的方法的流程图;
图5是示出了图1的无线终端的一些组件的示意图;
图6是示出了图1的转码节点的一些组件的示意图;以及
图7示出了包括计算机可读装置在内的计算机程序产品的一个示例。
具体实施方式
现将在下文参考其中示出本发明的特定实施例的附图来更全面地描述本发明。然而,本发明可以按多种不同形式来体现,并且不应当被解释为受到本文阐述的实施例的限制。相反,通过示例给出这些实施例,使得本公开将透彻和完整,并且向本领域技术人员充分地传达本发明的范围。在本描述的全文中,相似的标记指代相似的元素。
图1是示出了可以应用本文提出的实施例的蜂窝网8的示意图。蜂窝网8包括核心网3和在此具有演进节点B(也称为eNode B或eNB)形式的一个或多个无线电基站1。无线电基站1也可以是节点B、BTS(基本收发机站)和/或BSS(基站子系统)等的形式。无线电基站1提供与多个无线终端2的无线电连接。术语无线终端也称为移动通信终端、用户设备(UE)、移动终端、用户终端、用户代理、无线设备、机器对机器设备等,并且可以是例如今天通常被称为移动电话或者具有无线连接或固定安装端子的平板/膝上型计算机。
只要下文所描述的原理适用,蜂窝网8可以例如符合LTE(长期演进)、W-CDMA(宽带码分多址)、EDGE(增强型数据速率GSM(全球移动通信系统)演进)、GPRS(通用分组无线电服务)、CDMA2000(码分多址2000)或任何其它当前或未来的无线网络(诸如高级LTE)中的任意一个或其组合。
在无线的无线电接口上发生无线终端2与无线电基站1之间来自无线终端2的上行链路(UL)4a通信以及去往无线终端2的下行链路(DL)4b通信。由于衰落、多径传播、干扰等影响,针对于每个无线终端2的无线的无线电接口质量可能随时间并根据无线终端2的位置而变化。
无线电基站1还与核心网3连接,以连接到中心功能和外部网络7(例如公共交换电话网(PSTN)和/或互联网)。
音频数据可以由无线终端2和/或转码节点5编码和解码,转码节点5是被布置为执行音频的转码的网络节点。可以例如在MGW(媒体网关)、SBG(会话边界网关)/BGF(边界网关功能)或MRFP(媒体资源功能处理器)中实现转码节点5。因此,无线终端2和转码节点5二者均是包括相应音频解码器的主机设备。
图2是示出去往图1的无线终端的音频帧传输的示意图。当接收例如针对语音会话或甚至流音频的音频时,无线终端2接收连续音频帧15a-c的流。每个长度例如为20-40ms的音频帧是数据的数字表示集合,并且包括以适当格式编码的信号(即音频信号)。
在该示例中,无线终端2成功接收第一音频帧15a和第二音频帧15b。这允许无线终端2对音频帧15a-b中包括的音频信号进行解码。然而,例如,由于较差的无线电条件,未成功接收到第三音频帧15c。无线终端2中的音频解码器检测丢失的第三音频帧,并且然后能够执行分组丢失隐藏(PLC)过程以生成尽可能好地减小丢失的分组对音频的影响的音频。
一个问题是如何在音频解码器内的众多PLC过程中作出判决,使得可选择提供最佳可能的音频质量的过程。
更具体地,音频解码器可以采用至少两个不同的PLC过程,其中的一个特别适合于音乐信号,而第二个PLC过程更适合于非音乐信号(例如语音)。为了能够选择最合适的PLC过程,分析已被良好接收的(编码)音频信号(即无错误的或无删除(erased)的分组(15a-b)),并且基于这种分析作出PLC过程的选择。
具体问题是调整(tailor)对PLC选择过程的判决,使得用有益的方式利用可用PLC的特定个体强度。这涉及找到与接收音频信号(或其编码参数)的分析相关联的合适的信号相关测量,并找到基于该测量选择PLC过程的合适判决过程。对于基于帧的音频编解码器,还期望逐帧做出PLC过程判决,即可以响应于当前接收的良好音频帧和较早接收的音频数据做出判决。
一种新近用于音频的PLC过程是所谓的相位ECU。这是在信号是音乐信号的情况下在分组丢失之后提供特别高质量的恢复的音频信号的过程。
相位ECU方法包含基于正弦相位演变的隐藏。它基于在DFT(离散傅里叶变换)域中操作的正弦分析和合成范例。假定音频信号由数量有限的单独正弦分量组成。在分析步骤中,识别先前合成的音频帧的正弦分量。在合成步骤中,将这些正弦分量相位演变至丢失帧的时刻。执行内插正弦频率精化(refinement),以增加频率分辨率高于DFT的频率分辨率。不同于对不属于频谱峰值的DFT系数进行归零或幅度调整,在使用自适应相位随机化的同时保留原始DFT幅度。
另一类PLC过程是涵盖音高模型的那些PLC过程。这种过程的底层假设是信号可以包含人类语音的话音分段,其中所述信号是周期性的,具有声门激励的基频。通过并入这种音高模型,在信号是话音语音的情况下,PLC过程可以实现特别好质量的恢复的音频信号。
已知相位ECU对于调性音乐(播放持续音调的单个或多个乐器)以及对于复杂音乐信号(管弦乐队(orchestra)、流行音乐)来说表现得很好。另一方面,针对语音信号特别是话音语音,相位ECU有时存在缺陷。
另一方面,值得注意的是,最佳地,通常不对音乐信号和周期性的一般音频信号执行涵盖音高模型的PLC过程。相反,观察到一般周期性音频信号(例如调性音乐(演奏持续音调的单个或多个乐器))不太适合于使用音高模型的PLC过程。
图3是示出接收音频帧的信号频谱包络10的示意图形。水平轴表示频率并且垂直轴表示幅度(例如,功率等)。
现在参考图2和图3,将呈现关于如何在音频解码器中选择PLC过程的构思。应当注意,这可以在图1的无线终端和/或转码节点的音频解码器中执行。
选择PLC过程的一种解决方案是:在采用至少两个不同PLC过程的音频解码器中,以在PLC过程的选择中使用频谱包络稳定性测量。这涉及第一步骤,关于至少先前接收到的音频信号帧相对于至少一个更先前接收到的音频信号帧频谱包络的频谱包络稳定性,对所述至少先前接收到的音频信号帧进行分析。该分析步骤的结果是第二步骤中所使用的包络稳定性测量。在该第二步骤中,在判定算法中使用包络稳定性测量,所述判定算法在后续音频帧由于音频分组的丢失或传输错误而被删除或劣化的情况下,响应于至少该测量而从众多PLC过程中选择一个PLC过程。
假设音频解码器接收编码音频数据的分组,其构造为如图2所示的集合。每个编码音频数据集合表示编码音频信号的帧15a-c。作为对原始音频信号编码的结果,由音频编码器产生编码音频数据集合。编码音频数据的集合以分组的形式发送给解码器,通常每个分组一个或多个集合或在一些情况下每个分组部分(partial)集合。
在接收到分组之后,音频接收机识别能够由音频解码器解码的正确接收的编码音频数据的集合。与损坏或丢失的分组相对应的集合对于解码是不可用的,且相反需要由可用PLC过程之一恢复对应的音频信号帧。下面描述对要用于给定丢失音频帧的PLC过程的选择。
首先,检测音频类型(参见图4A-图4B的步骤40),其中分析至少一个先前正确接收的音频帧或其相关编码参数,并在某一存储器(例如,图5的数据存储器53或图6的数据存储器63)中存储以用于潜在的后续帧丢失。通常,该分析是用在丢失之前最新正确接收到的音频帧来进行的。该分析评估音频信号可能是语音信号还是音乐信号。该分析的结果可以是在例如从0到1的值范围内定义的测量,其中接近0的值表示信号是语音的高似然性,并且其中接近1的值表示信号是音乐的高似然性,或反之亦然。
分析步骤的一个实施例是使用频谱包络稳定性来作为对信号帧是语音还是音乐的似然性的测量。使用频谱包络稳定性作为这种指示符的背景是:观察到音乐趋向于具有随时间的相对稳定的频谱包络或者随时间缓慢地演变的频谱包络,而对于语音观察到相反情况。该测量评估在频谱子带能量(也称为比例因子或范数)的域中音频信号频谱包络的变化性。值得注意的是,该测量可以例如也在音频编解码器中用于控制频谱子带的噪声基底。
一种计算频谱包络稳定性测量的方法是:将最近正确接收到的帧的频谱包络表示(例如,幅度谱)与至少一个较早接收到的帧的频谱包络表示(其表示已存储在存储器中)进行比较。如果包络中趋向于相对较强的变化,则假定信号是类语音的,否则假定其代表音乐。因此,分别将包络稳定性值设置为接近0或接近1的值。创造性的洞察在于:对于在丢失之前的包络稳定性指示符指示高稳定性的信号帧丢失,应当选择更适合于音乐信号的PLC。
参见图4A-图4B的步骤44,PLC过程的实际判决在第二步骤中完成。这里,首先从存储器恢复在帧丢失之前的良好帧中计算的包络稳定性测量,然后将其与阈值进行比较。作为示例,阈值可以是0.5。如果包络稳定性测量超过阈值,则选择音乐信号的PLC过程,否则选择语音信号的PLC过程。
根据一个实施例,所描述的基于包络稳定性的判决方法在多级判决方法中的一级中使用。这里,基于包络稳定性测量做出是否选择更适合于音乐的PLC过程的第一判决。同样,如果稳定性测量值高于某个阈值,则将选择音乐信号PLC。然而,如果不是这种情况,可以涉及第二判定方法,其将在最后的良好音频帧期间推导出的其他测量与某个阈值进行比较。其他测量的示例是可以用于将话音语音与非话音语音区分开的参数,例如,音高预测增益(长期预测增益)或例如包络谱的倾斜。如果这些值指示音频信号可能是话音话音(通过相对大的值),则选择器选择更适合语音信号的PLC过程,否则选择适合音乐的PLC过程。
根据另一实施例,除了作为一个判决准则的包络稳定性测量之外,PLC过程判决还涉及对其他测量的计算以及它们与适当阈值的比较。这些测量可以例如是:VAD(语音活动检测器)标志、功率参数、关于信号音调的测量、关于信号谐波程度的测量以及关于信号的频谱复杂程度的测量等。非常调性的信号将具有与一些较早的音频帧相比相对稳定的相对少量的区别频谱峰值。谐波信号将在基频及其整数倍处具有区别频谱峰值。频谱复杂的音频信号(如例如,来自具有许多做出贡献的乐器的管弦乐队音乐)将具有相对大量的彼此关系不清楚的频谱峰值。判决方法可以在确定用于丢失帧的PLC过程时,除包络稳定性之外,还考虑这种附加测量。
根据一个实施例,最适合用于检测到的音乐信号或具有相对稳定的频谱包络的信号、调性信号和/或频谱复杂信号的PLC过程是相位ECU。针对其应当选择具有音高模型的另一PLC过程的信号是那些被分类为语音且特别是话音语音的信号,以及具有通常针对于话音语音的谐波频谱结构和/或频谱倾斜的信号。
图4A-图4B是示出在主机设备(图1的无线终端和/或转码节点)的音频解码器中执行的用于选择分组丢失隐藏过程的方法的流程图。
在检测音频类型步骤40中,检测接收音频帧的音频类型。这可以包括确定音频类型是音乐还是语音。可选地,存在更多可能的音频类型,潜在地包括“未知”的音频类型。
在一个实施例中,当接收音频信号的频谱包络稳定时,将音频类型确定为音乐。在这种情况下,当接收音频信号的频谱包络不稳定时,将音频类型确定为语音。可以例如通过当频谱包络的稳定性是标量时与阈值进行比较来定义稳定和不稳定。
可选地,在该步骤中使用迟滞(hysteresis)以防止在音频类型检测中来回跳跃。备选地或附加地,可以使用马尔可夫链以增加分类的稳定性。
在确定PLC过程步骤44中,基于音频类型确定分组丢失隐藏过程。
可以在接收新音频帧时重复该方法,以确保确定最新的音频类型。
图4B示出了根据一个实施例的用于选择分组丢失隐藏过程的方法。该方法与图4A中所示的方法类似,并且将仅描述关于图4A的新的或修改的步骤。
这里,检测音频类型步骤40包括可选的确定频谱包络稳定性步骤41和/或可选的确定第二测量步骤42。
在可选的确定频谱包络稳定性步骤41中,确定接收音频帧的信号频谱包络的稳定性。如上所述,这可以通过比较两个(或更多个)正确接收的连续音频帧的信号频谱包络来实现。
可选地,如上所述,计算与接收音频帧的接收信号频谱包络相关的标量测量,例如,具有在0和1之间的值。
在可选的确定第二测量步骤42中,确定接收音频帧的第二测量。所述第二测量包括从由音高预测增益、频谱包络的倾斜、语音活动检测器标志、功率参数、信号音调的测量、信号谐波程度的测量以及信号的频谱复杂程度的测量所组成的组中选择的指示符。
图5是示出了图1的无线终端2的一些组件的示意图。使用合适的中央处理单元(CPU)、多处理器、微控制器、数字信号处理器(DSP)、专用集成电路等中一个或更多个的任意组合提供处理器50,处理器402能够执行在存储器54中存储的软件指令56,存储器54因此可以是计算机程序产品。处理器50可以被配置为执行软件指令56,以执行以上参照图4A-图4B所描述的方法的一个或更多个实施例。
存储器54可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。存储器54还包括持久存储设备,其例如可以是磁存储器、光存储器、固态存储器或甚至远程安装存储器中的任意单独一个或组合。
还提供数据存储器53,用于在处理器50中软件指令的执行期间读取和/或存储数据。数据存储器53可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。
无线终端2还包括I/O接口52,用于与其他外部实体通信。I/O接口52还包括用户接口,包括麦克风、扬声器、显示器等。可选地,外部麦克风和/或扬声器/头戴耳机可以与无线终端连接。
无线终端2还包括一个或多个收发机51,包括模拟和数字组件以及用于与图1中所示的无线终端进行无线通信的合适数目的天线55。
无线终端2包括音频编码器和音频解码器。这些可以用软件指令56实现,软件指令56可以由处理器50或使用单独硬件(未示出)执行。
为了突出本文提出的构思,省略了无线终端2的其他组件。
图6是示出了图1的转码节点5的一些组件的示意图。使用合适的中央处理单元(CPU)、多处理器、微控制器、数字信号处理器(DSP)、专用集成电路等中一个或更多个的任意组合提供处理器60,处理器402能够执行在存储器64中存储的软件指令66,存储器54因此可以是计算机程序产品。处理器60可以被配置为执行软件指令66,以执行以上参照图4A-图4B所描述的方法的一个或更多个实施例。
存储器64可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。存储器64还包括持久存储设备,其例如可以是磁存储器、光存储器、固态存储器或甚至远程安装存储器中的任意单独一个或组合。
还提供数据存储器63,用于在处理器60中软件指令的执行期间读取和/或存储数据。数据存储器63可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。
转码节点5还包括I/0接口62,用于(经由无线电基站1)与其他外部实体(例如图1的无线终端)通信。
转码节点5包括音频编码器和音频解码器。这些可以用软件指令66实现,软件指令56可以由处理器60或使用单独硬件(未示出)执行。
为了突出本文提出的构思,省略了转码节点5的其他组件。
图7示出了包括计算机可读装置的计算机程序产品90的一个示例。在该计算机可读装置中,可以存储计算机程序91,该计算机程序可以使处理器执行根据此处描述的实施例的方法。在本示例中,计算机程序产品是光盘,如,CD(紧致盘)或DVD(数字多功能盘)或蓝光盘。如以上说明的,计算机程序产品还可以被实现为设备的存储器,如图5的计算机程序产品54或图6的计算机程序产品64。虽然计算机程序91此处被示意性地示为所示光盘上的轨道,可以以任意适合于计算机程序产品的方式来存储计算机程序,例如可移除固态存储器(例如,通用串行总线(USB)棒)。
在此,现在下面是一组实施例,以进一步描述本文所呈现的构思。
在第一实施例中包括:一种用于选择分组丢失隐藏过程的方法,所述方法在音频解码器中执行,并包括以下步骤:检测(40)接收音频帧的音频类型;以及基于音频类型确定(44)分组丢失隐藏过程,
第二实施例包括根据第一实施例所述的方法,其中所述检测(40)音频类型的步骤包括以下步骤:确定(41)接收音频帧的信号频谱包络的稳定性。
根据第二实施例所述的方第三实施例,其中确定(41)接收音频帧的信号频谱包络的稳定性的步骤包括比较两个(或更多)正确接收的连续音频帧的信号频谱包络。
根据第二或第三实施例所述的第四实施例,其中确定(41)接收音频帧的接收信号频谱包络稳定性的步骤包括:计算与接收音频帧的接收信号频谱包络有关的标量测量。
第五实施例包括根据第二、第三和第四实施例中任意一个所述的方法,其中所述检测(40)音频类型的步骤还包括以下步骤:确定(42)接收音频帧的第二测量,所述第二测量包括从由音高预测增益、频谱包络的倾斜、语音活动检测器标志、功率参数、信号音调的测量、信号谐波程度的测量以及信号的频谱复杂程度的测量所组成的组中选择的指示符。
第六实施例包括根据前述实施例中任一项所述的方法,其中检测(40)音频类型的步骤包括:确定所述音频类型是音乐还是语音。
根据第六实施例(当从属于第二实施例时)所述的第七实施例,其中检测(40)音频类型的步骤包括:当接收音频信号频谱包络稳定时,确定所述音频类型是音乐,并且当接收音频信号频谱包络不稳定时,确定音频类型是语音。
第八实施例包括用于选择分组丢失隐藏过程的主机设备(2、5),主机设备包括处理器(50、60)和存储指令(56、66)的存储器(54、64),所述指令当由处理器执行时,使所述主机设备(2、5):检测接收音频帧的音频类型;以及基于音频类型确定分组丢失隐藏过程。
第九实施例包括根据第八实施例所述的主机设备(2、5),其中用于检测语音类型的指令包括由所述处理器执行时使所述主机设备(2、5)执行以下操作的指令:确定接收音频帧的信号频谱包络的稳定性。
第十实施例包括根据第九实施例所述的主机设备(2、5),其中确定接收音频帧的信号频谱包络的稳定性的指令包括由所述处理器执行时使所述主机设备(2、5)执行以下操作的指令:对两个(或更多个)正确接收的连续音频帧的信号频谱包络进行比较。
第十一实施例包括根据第九或第十实施例所述的主机设备(2、5),其中确定接收音频帧的接收信号频谱包络的稳定性的指令包括由所述处理器执行时使所述主机设备(2、5)执行以下操作的指令:计算与接收音频帧的接收信号频谱包络有关的标量测量。
第十二实施例包括根据第九、第十和第十一实施例中任意一个所述的主机设备(2、5),其中确定分组丢失隐藏过程的指令还包括由所述处理器执行时使所述主机设备(2、5)执行以下操作的指令:确定接收音频帧的第二测量,所述第二测量包括从由音高预测增益、频谱包络的倾斜、语音活动检测器标志、功率参数、信号音调的测量、信号谐波程度的测量以及信号的频谱复杂程度的测量所组成的组中选择的指示符。
第十三实施例包括根据第八至第十二实施例中任一项所述的主机设备(2、5),其中检测音频类型的指令包括由所述处理器执行时使所述主机设备(2、5)执行以下操作的指令:确定所述音频类型是音乐还是语音。
第十四实施例包括根据第十三实施例所述的主机设备(2、5),其中检测所述音频类型的指令包括由所述处理器执行时使所述主机设备(2、5)执行以下操作的指令:当接收音频信号频谱包络稳定时,确定所述音频类型为音乐,并且当接收音频信号频谱包络不稳定时,确定音频类型为语音。
第十五实施例包括根据第八至第十四实施例中任一项所述的主机设备(2),其中,所述主机设备是无线终端(2)。
第十六实施例包括根据第八至第十四实施例中任一项所述的主机设备(5),其中,所述主机设备(5)是被布置为执行音频转码的转码节点。
第十七实施例包括一种用于选择分组丢失隐藏过程的计算机程序(66、91),所述计算机程序包括计算机程序代码,所述计算机程序代码在运行于主机设备(2、5)上时使所述主机设备(2、5):检测接收音频帧的音频类型;以及基于音频类型确定分组丢失隐藏过程。
第十八实施例包括计算机程序产品(64、90),包括:根据第十七实施例所述的计算机程序。
已经参考一些实施例在上文中主要地描述了本发明。然而,本领域技术人员容易了解,不是上文公开的实施例的在本发明的范围中的其他实施例也是可以的。

Claims (15)

1.一种用于选择分组丢失隐藏过程的方法,所述方法包括:
通过确定接收音频帧的信号频谱包络的稳定性来将接收音频帧分类为语音或音乐,其中,使用马尔可夫链来增加分类的稳定性;以及
至少部分基于语音/音乐分类来确定分组丢失隐藏过程。
2.根据权利要求1所述的方法,其中,确定接收音频帧的信号频谱包络的稳定性包括:将至少两个连续且正确接收到的接收音频帧的信号频谱包络进行比较。
3.根据权利要求1或2所述的方法,其中,确定接收音频帧的信号频谱包络的稳定性包括:计算与接收音频帧的信号频谱包络有关的标量测量。
4.根据权利要求1或2所述的方法,其中,将接收音频帧分类为语音或音乐包括:响应于确定接收音频帧的信号频谱包络是稳定的,将接收音频帧分类为音乐;以及响应于确定接收音频帧的信号频谱包络是不稳定的,将接收音频帧分类为语音。
5.根据权利要求1或2所述的方法,其中,确定分组丢失隐藏过程包括:响应于将接收音频帧分类为音乐,选择基于正弦相位演变的相位误差隐藏单元ECU方法。
6.根据权利要求1或2所述的方法,其中,确定分组丢失隐藏过程包括:响应于将接收音频帧分类为语音,选择音高模型。
7.根据权利要求1或2所述的方法,其中,确定分组丢失隐藏过程还包括:确定接收音频帧的第二测量,并将所述第二测量与所确定的阈值进行比较,其中,所述第二测量包括从由音高预测增益、频谱包络的倾斜、语音活动检测器标志、功率参数、信号音调的测量、信号谐波程度的测量以及信号的频谱复杂程度的测量所组成的组中选择的指示符。
8.一种用于选择分组丢失隐藏过程的主机设备,所述主机设备包括:
处理器;以及
存储指令的存储器,所述指令当由所述处理器执行时,使所述主机设备:
通过确定接收音频帧的信号频谱包络的稳定性来将接收音频帧分类为语音或音乐,其中,使用马尔可夫链来增加分类的稳定性;以及
至少部分基于语音/音乐分类来确定分组丢失隐藏过程。
9.根据权利要求8所述的主机设备,其中,用于确定接收音频帧的信号频谱包络的稳定性的指令包括当由所述处理器执行时使所述主机设备执行以下操作的指令:将至少两个连续且正确接收到的接收音频帧的信号频谱包络进行比较。
10.根据权利要求8或9所述的主机设备,其中,用于确定接收音频帧的信号频谱包络的稳定性的指令包括当由所述处理器执行时使所述主机设备执行以下操作的指令:计算与接收音频帧的信号频谱包络有关的标量测量。
11.根据权利要求8或9所述的主机设备,其中,用于将接收音频帧分类为语音或音乐的指令包括当由所述处理器执行时使所述主机设备执行以下操作的指令:当接收音频帧的信号频谱包络稳定时,将接收音频帧分类为音乐;以及当接收音频帧的信号频谱包络不稳定时,将接收音频帧分类为语音。
12.根据权利要求8或9所述的主机设备,其中,用于确定分组丢失隐藏过程的指令还包括当由所述处理器执行时使所述主机设备执行以下操作的指令:确定接收音频帧的第二测量,并将所述第二测量与所确定的阈值进行比较,其中,所述第二测量包括从由音高预测增益、频谱包络的倾斜、语音活动检测器标志、功率参数、信号音调的测量、信号谐波程度的测量以及信号的频谱复杂程度的测量所组成的组中选择的指示符。
13.根据权利要求8或9所述的主机设备,其中,所述主机设备是无线终端。
14.根据权利要求8或9所述的主机设备,其中,所述主机设备是被布置为执行音频转码的转码节点。
15.一种计算机可读装置,存储包括指令的计算机程序,所述指令当由处理器执行时使所述处理器执行根据权利要求1至7中任一项所述的方法。
CN201911211452.3A 2014-05-15 2015-05-12 选择分组丢失隐藏过程的方法、设备和计算机可读装置 Active CN110797035B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201461993814P 2014-05-15 2014-05-15
US61/993,814 2014-05-15
CN201580026185.6A CN106464683B (zh) 2014-05-15 2015-05-12 选择分组丢失隐藏过程
PCT/SE2015/050530 WO2015174911A1 (en) 2014-05-15 2015-05-12 Selecting a packet loss concealment procedure

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580026185.6A Division CN106464683B (zh) 2014-05-15 2015-05-12 选择分组丢失隐藏过程

Publications (2)

Publication Number Publication Date
CN110797035A CN110797035A (zh) 2020-02-14
CN110797035B true CN110797035B (zh) 2023-05-02

Family

ID=53385914

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201580026185.6A Active CN106464683B (zh) 2014-05-15 2015-05-12 选择分组丢失隐藏过程
CN201911216946.0A Active CN110797036B (zh) 2014-05-15 2015-05-12 选择分组丢失隐藏过程的方法、设备和计算机可读装置
CN201911211452.3A Active CN110797035B (zh) 2014-05-15 2015-05-12 选择分组丢失隐藏过程的方法、设备和计算机可读装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201580026185.6A Active CN106464683B (zh) 2014-05-15 2015-05-12 选择分组丢失隐藏过程
CN201911216946.0A Active CN110797036B (zh) 2014-05-15 2015-05-12 选择分组丢失隐藏过程的方法、设备和计算机可读装置

Country Status (11)

Country Link
US (5) US9712414B2 (zh)
EP (3) EP3422678B1 (zh)
CN (3) CN106464683B (zh)
BR (1) BR112016026655B1 (zh)
DK (1) DK3258674T3 (zh)
ES (3) ES2780000T3 (zh)
IL (3) IL248168A (zh)
NO (1) NO2780522T3 (zh)
PL (3) PL3258674T3 (zh)
RU (3) RU2704747C2 (zh)
WO (1) WO2015174911A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO2780522T3 (zh) 2014-05-15 2018-06-09
MX385728B (es) * 2016-03-07 2025-03-18 Fraunhofer Ges Forschung Método de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio.
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2020165260A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode channel coding with mode specific coloration sequences
WO2020164752A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transmitter processor, audio receiver processor and related methods and computer programs
EP3928314B1 (en) * 2019-02-21 2025-04-09 Telefonaktiebolaget LM Ericsson (publ) Spectral shape estimation from mdct coefficients

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI963870L (fi) * 1996-09-27 1998-03-28 Nokia Oy Ab Virheiden piilottaminen digitaalisessa audiovastaanottimessa
US6456719B1 (en) * 1998-01-16 2002-09-24 Winbond Electronics Corp. Compressed audio error concealment apparatus and method
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
CN1323532C (zh) * 2001-11-15 2007-06-27 松下电器产业株式会社 错误隐蔽装置和方法
US7061912B1 (en) 2002-01-17 2006-06-13 Microtune (San Diego) , Inc. Method and apparatus of packet loss concealment for CVSD coders
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
SE527669C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
BRPI0607247B1 (pt) * 2005-01-31 2019-10-29 Skype método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
US7805297B2 (en) * 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
EP2054879B1 (en) * 2006-08-15 2010-01-20 Broadcom Corporation Re-phasing of decoder states after packet loss
CN101361112B (zh) * 2006-08-15 2012-02-15 美国博通公司 隐藏丢包后解码器状态的更新
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
FR2907586A1 (fr) * 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
GB0705324D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
US8578247B2 (en) * 2008-05-08 2013-11-05 Broadcom Corporation Bit error management methods for wireless audio communication channels
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8676573B2 (en) * 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
JP5529635B2 (ja) * 2010-06-10 2014-06-25 キヤノン株式会社 音声信号処理装置および音声信号処理方法
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
WO2012158159A1 (en) * 2011-05-16 2012-11-22 Google Inc. Packet loss concealment for audio codec
CN102810313B (zh) 2011-06-02 2014-01-01 华为终端有限公司 音频解码方法及装置
US9047863B2 (en) * 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
US9082398B2 (en) * 2012-02-28 2015-07-14 Huawei Technologies Co., Ltd. System and method for post excitation enhancement for low bit rate speech coding
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CA2978416C (en) * 2013-02-05 2019-06-18 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment
DK2954517T3 (en) * 2013-02-05 2016-11-28 ERICSSON TELEFON AB L M (publ) HIDE OF LOST AUDIO FRAMES
US9338551B2 (en) * 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
ES2702455T3 (es) * 2014-02-24 2019-03-01 Samsung Electronics Co Ltd Procedimiento y dispositivo de clasificación de señales, y procedimiento y dispositivo de codificación de audio que usan los mismos
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
NO2780522T3 (zh) 2014-05-15 2018-06-09

Also Published As

Publication number Publication date
EP3422678B1 (en) 2020-01-08
CN110797036A (zh) 2020-02-14
US20160285718A1 (en) 2016-09-29
CN110797035A (zh) 2020-02-14
US20200036614A1 (en) 2020-01-30
ES2703437T3 (es) 2019-03-08
US20170288999A1 (en) 2017-10-05
WO2015174911A1 (en) 2015-11-19
IL275257A (en) 2020-07-30
NO2780522T3 (zh) 2018-06-09
IL275257B (en) 2020-09-30
RU2018128779A (ru) 2018-10-01
PL3258674T3 (pl) 2019-02-28
RU2665889C2 (ru) 2018-09-04
DK3258674T3 (en) 2019-01-07
RU2018128779A3 (zh) 2019-04-25
IL248168A (en) 2017-07-31
EP3111624A1 (en) 2017-01-04
EP3422678A1 (en) 2019-01-02
EP3258674B1 (en) 2018-09-26
ES2780000T3 (es) 2020-08-21
BR112016026655B1 (pt) 2023-12-05
CN110797036B (zh) 2024-01-09
PL3422678T3 (pl) 2020-07-27
US10103958B2 (en) 2018-10-16
US10476769B2 (en) 2019-11-12
US20210266246A1 (en) 2021-08-26
US20190028373A1 (en) 2019-01-24
CN106464683B (zh) 2019-11-29
RU2704747C2 (ru) 2019-10-30
BR112016026655A2 (pt) 2017-08-15
RU2016149098A3 (zh) 2018-06-15
RU2019132422A3 (zh) 2021-12-07
US11038787B2 (en) 2021-06-15
US9712414B2 (en) 2017-07-18
RU2019132422A (ru) 2021-04-14
IL253262B (en) 2020-06-30
EP3258674A1 (en) 2017-12-20
PL3111624T3 (pl) 2018-02-28
CN106464683A (zh) 2017-02-22
ES2650787T3 (es) 2018-01-22
IL253262A0 (en) 2017-08-31
US11729079B2 (en) 2023-08-15
RU2016149098A (ru) 2018-06-15
EP3111624B1 (en) 2017-09-20

Similar Documents

Publication Publication Date Title
CN110797035B (zh) 选择分组丢失隐藏过程的方法、设备和计算机可读装置
JP6377862B2 (ja) エンコーダ選択
US10297264B2 (en) Audio signal classification and coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant