CN103109321B - 估计音调滞后 - Google Patents
估计音调滞后 Download PDFInfo
- Publication number
- CN103109321B CN103109321B CN201180044585.1A CN201180044585A CN103109321B CN 103109321 B CN103109321 B CN 103109321B CN 201180044585 A CN201180044585 A CN 201180044585A CN 103109321 B CN103109321 B CN 103109321B
- Authority
- CN
- China
- Prior art keywords
- pitch lag
- candidates
- signal
- value
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明描述一种用于估计音调滞后的电子装置。所述电子装置包括处理器和存储于与所述处理器电子通信的存储器中的可执行指令。所述电子装置获得当前帧。所述电子装置还基于所述当前帧获得残余信号。所述电子装置另外基于所述残余信号确定峰值位置集合。此外,所述电子装置基于所述峰值位置集合获得音调滞后候选者集合。所述电子装置还基于所述音调滞后候选者集合估计音调滞后。
Description
相关申请案
本申请案涉及2010年9月16日申请的题为“估计音调滞后(ESTIMATING A PITCHLAG)”的第61/383,692号美国临时专利申请案并主张其优先权。
技术领域
本发明大体上涉及信号处理。更具体地说,本发明涉及估计音调滞后。
背景技术
在过去的几十年中,电子装置的使用已变得常见。明确地说,电子技术的进步已降低了越来越复杂且有用的电子装置的成本。成本降低和消费者需求已使电子装置的使用激增,使得其在现代社会中实际上为普遍存在的。随着电子装置的使用扩大,对于电子装置的新的且改进的特征的需求也扩大。更具体来说,常常找到更快、更有效或以更高质量执行功能的电子装置。
一些电子装置(例如,蜂窝式电话、智能电话、计算机等)使用语音信号。这些电子装置可编码语音信号以供存储或发射。举例来说,蜂窝式电话使用麦克风俘获用户的话音或语音。举例来说,蜂窝式电话使用麦克风将声学信号转换成电子信号。可接着将此电子信号进行格式化以供发射到另一装置(例如,蜂窝式电话、智能电话、计算机等)或供存储。
举例来说,就带宽和/或存储资源来说,发射或发送未经压缩的语音信号可为代价较高的。存在试图更有效率地(例如,使用较少数据)表示语音信号的一些方案。然而,这些方案可能不会很好地表示语音信号的一些部分,从而导致性能降级。如从前述论述可理解,改进语音信号译码的系统和方法可为有益的。
发明内容
揭示一种用于估计音调滞后的电子装置。所述电子装置包括处理器和存储于与所述处理器电子通信的存储器中的指令。所述电子装置获得当前帧。所述电子装置还基于所述当前帧获得残余信号。所述电子装置另外基于所述残余信号确定峰值位置集合。所述电子装置进一步基于所述峰值位置集合获得音调滞后候选者集合。所述电子装置还基于所述音调滞后候选者集合估计音调滞后。获得所述残余信号可进一步基于经量化线性预测系数集合。获得所述音调滞后候选者集合可包括以递增次序布置所述峰值位置集合以产生有序峰值位置集合以及计算所述有序峰值位置集合中的连续峰值位置对之间的距离。
确定峰值位置集合可包括基于所述残余信号的样本的绝对值和窗口信号计算包络信号。确定峰值位置集合还可包括基于所述包络信号与所述包络信号的时间移位版本之间的差计算第一梯度信号。确定峰值位置集合可另外包括基于所述第一梯度信号与所述第一梯度信号的时间移位版本之间的差计算第二梯度信号。确定峰值位置集合可进一步包括选择第二梯度信号值降低到第一阈值以下的第一位置索引集合。确定峰值位置集合还可包括通过消除包络值相对于包络中的最大值降低到第二阈值以下的位置索引来从所述第一位置索引集合确定第二位置索引集合。确定峰值位置集合还可包括通过消除相对于相邻位置索引不满足差阈值的位置索引来从所述第二位置索引集合确定第三位置索引集合。
所述电子装置还可使用所述当前帧和在所述当前帧之前的信号执行线性预测分析以获得线性预测系数集合。所述电子装置还可基于所述线性预测系数集合确定经量化线性预测系数集合。所述音调滞后可使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计。
所述电子装置还可计算对应于所述音调滞后候选者集合的置信测度集合。计算对应于所述音调滞后候选者集合的所述置信测度集合可基于信号包络和所述峰值位置的有序集合中的连续峰值位置对。计算所述置信测度集合可包括对于所述峰值位置的所述有序集合中的每一对峰值位置,基于围绕一对峰值位置中的第一峰值位置的范围选择第一信号缓冲器,且基于围绕所述对峰值位置中的第二峰值位置的范围选择第二信号缓冲器。计算置信测度集合还可包括对于所述峰值位置的所述有序集合中的每一对峰值位置,计算所述第一信号缓冲器与所述第二信号缓冲器之间的经正规化的交叉相关性,且将所述经正规化的交叉相关性添加到所述置信测度集合。
所述电子装置还可将基于所述当前帧的所述残余信号计算的第一近似音调滞后值添加到所述音调滞后候选者集合,且将对应于所述第一近似音调滞后值的第一音调增益添加到所述置信测度集合。通过基于所述当前帧的所述残余信号估计自相关性值且搜索在某一位置范围内的所述自相关性值以查找最大值,可估计第一近似音调滞后值且可估计第一音调增益。通过将所述第一近似音调滞后值设置为出现所述最大值所在的位置且将所述第一音调增益值设置为所述第一近似音调滞后值处的经正规化的自相关性,可进一步估计第一近似音调滞后值且还可估计第一音调增益。
所述电子装置还可将基于先前帧的残余信号计算的第二近似音调滞后值添加到所述音调滞后候选者集合,且可将对应于所述第二近似音调滞后值的第二音调增益添加到所述置信测度集合。所述电子装置还可发射所述音调滞后。所述电子装置可为无线通信装置。
通过基于所述先前帧的所述残余信号估计自相关性值且搜索在某一位置范围内的所述自相关性值以查找最大值,可估计所述第二近似音调滞后值且可估计所述第二音调增益。通过将所述第二近似音调滞后值设置为出现所述最大值所在的位置且将所述音调增益值设置为所述第二近似音调滞后值处的经正规化的自相关性,可进一步估计所述第二近似音调滞后值且可进一步估计所述第二音调增益。
使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计所述音调滞后可包括使用所述音调滞后候选者集合和所述置信测度集合计算经加权均值,且确定所述音调滞后候选者集合中的最远离所述经加权均值的音调滞后候选者。使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计所述音调滞后可进一步包括从所述音调滞后候选者集合中移除最远离所述经加权均值的所述音调滞后候选者,且从所述置信测度集合中移除对应于最远离所述经加权均值的所述音调滞后候选者的置信测度。使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计所述音调滞后可进一步包括确定剩余音调滞后候选者数目是否等于指定数目,且在所述剩余音调滞后候选者数目等于所述指定数目的情况下,基于一个或一个以上剩余音调滞后候选者确定所述音调滞后。所述电子装置还可在所述剩余音调滞后候选者数目不等于所述指定数目的情况下反复进行。
可根据方程式来实现计算所述经加权均值。Mw可为所述经加权均值,L可为音调滞后候选者数目,{di}可为所述音调滞后候选者集合,且{ci}可为所述置信测度集合。
可通过找到dk来实现确定所述音调滞后候选者集合中的最远离所述经加权均值的音调滞后候选者,使得对于所有i,|Mw-dk|>|Mw-di|,其中i≠k。dk可为最远离所述经加权均值的音调滞后候选者,Mw可为经加权均值,{di}可为所述音调滞后候选者集合,且i可为索引编号。
还揭示另一种用于估计音调滞后的电子装置。所述电子装置包括处理器和存储于与所述处理器电子通信的存储器中的指令。所述电子装置获得语音信号。所述电子装置还基于所述语音信号获得音调滞后候选者集合。所述电子装置进一步确定对应于所述音调滞后候选者集合的置信测度集合。所述电子装置另外使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计音调滞后。
使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计所述音调滞后可包括使用所述音调滞后候选者集合和所述置信测度集合计算经加权均值,且确定所述音调滞后候选者集合中的最远离经加权均值的音调滞后候选者。使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计所述音调滞后可进一步包括从所述音调滞后候选者集合中移除最远离所述经加权均值的音调滞后候选者,且从所述置信测度集合中移除对应于最远离所述经加权均值的所述音调滞后候选者的置信测度。使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计所述音调滞后可另外包括确定剩余音调滞后候选者数目是否等于指定数目,且在所述剩余音调滞后候选者数目等于所述指定数目的情况下,基于一个或一个以上剩余音调滞后候选者确定所述音调滞后。
还揭示一种用于在电子装置上估计音调滞后的方法。所述方法包括获得当前帧。所述方法还包括基于所述当前帧获得残余信号。所述方法进一步包括基于所述残余信号确定峰值位置集合。所述方法另外包括基于所述峰值位置集合获得音调滞后候选者集合。所述方法还包括基于所述音调滞后候选者集合估计音调滞后。
还揭示另一种用于在电子装置上估计音调滞后的方法。所述方法包含获得语音信号。所述方法还包括基于所述语音信号获得音调滞后候选者集合。所述方法进一步包括确定对应于所述音调滞后候选者集合的置信测度集合。所述方法另外包括使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计音调滞后。
还揭示一种用于估计音调滞后的计算机程序产品。所述计算机程序产品包括具有指令的非暂时性有形计算机可读媒体。所述指令包括用于致使电子装置获得当前帧的代码。所述指令还包括用于致使所述电子装置基于所述当前帧获得残余信号的代码。所述指令进一步包括用于致使所述电子装置基于所述残余信号确定峰值位置集合的代码。所述指令另外包括用于致使所述电子装置基于所述峰值位置集合获得音调滞后候选者集合的代码。所述指令还包括用于致使所述电子装置基于所述音调滞后候选者集合估计音调滞后的代码。
还揭示另一种用于估计音调滞后的计算机程序产品。所述计算机程序产品包括具有指令的非暂时性有形计算机可读媒体。所述指令包括用于致使电子装置获得语音信号的代码。所述指令还包括用于致使所述电子装置基于语音信号获得音调滞后候选者集合的代码。所述指令进一步包括用于致使所述电子装置确定对应于所述音调滞后候选者集合的置信测度集合的代码。所述指令另外包括用于致使所述电子装置使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计音调滞后的代码。
还揭示一种用于估计音调滞后的设备。所述设备包括用于获得当前帧的装置。所述设备还包括用于基于所述当前帧获得残余信号的装置。所述设备进一步包括用于基于所述残余信号确定峰值位置集合的装置。所述设备另外包括用于基于所述峰值位置集合获得音调滞后候选者集合的装置。所述设备还包括用于基于所述音调滞后候选者集合估计音调滞后的装置。
还揭示另一种用于估计音调滞后的设备。所述设备包括用于获得语音信号的装置。所述设备还包括用于基于所述语音信号获得音调滞后候选者集合的装置。所述设备进一步包括用于确定对应于所述音调滞后候选者集合的置信测度集合的装置。所述设备另外包括用于使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计音调滞后的装置。
附图说明
图1为说明其中可实施用于估计音调滞后的系统和方法的电子装置的一个配置的框图;
图2为说明用于估计音调滞后的方法的一个配置的流程图;
图3为说明来自残余信号的峰值的一个实例的图;
图4为说明用于估计音调滞后的方法的另一配置的流程图;
图5为说明用于估计音调滞后的方法的较特定配置的流程图;
图6为说明用于使用迭代修剪算法估计音调滞后的方法的一个配置的流程图;
图7为说明其中可实施用于估计音调滞后的系统和方法的编码器的一个配置的框图;
图8为说明解码器的一个配置的框图;
图9为说明用于解码语音信号的方法的一个配置的流程图;
图10为说明其中可实施用于估计音调滞后的系统和方法的电子装置的一个实例的框图;
图11为说明其中可实施用于解码语音信号的系统和方法的电子装置的一个实例的框图;
图12为说明音调同步增益按比例缩放和LPC合成块/模块的一个配置的框图;
图13说明可用于电子装置中的各种组件;以及
图14说明可包括于无线通信装置内的某些组件。
具体实施方式
本文中所揭示的系统和方法可应用于多种装置,例如电子装置。电子装置的实例包括话音记录器、摄像机、音频播放器(例如,移动图片专家小组1(MPEG-1)或MPEG-2音频层3(MP3)播放器)、视频播放器、音频记录器、桌上型计算机/膝上型计算机、个人数字助理(PDA)、游戏系统等。一种种类的电子装置为通信装置,其可与另一装置通信。通信装置的实例包括电话、膝上型计算机、桌上型计算机、蜂窝式电话、智能电话、无线或有线调制解调器、电子阅读器、平板装置、游戏系统、蜂窝式电话基站或节点、接入点、无线网关和无线路由器。
通信装置可根据特定工业标准而操作,例如国际电信联盟(ITU)标准和/或电气与电子工程师学会(IEEE)标准(例如,无线保真或“Wi-Fi”标准,例如802.11a、802.11b、802.11g、802.11n和/或802.11ac)。通信装置可遵照的标准的其它实例包括IEEE802.16(例如,微波接入全球互通或“WiMAX”)、第三代合作伙伴计划(3GPP)、3GPP长期演进(LTE)、全球移动电信系统(GSM)和其它标准(其中通信装置可被称为(例如)用户设备(UE)、节点B、演进型节点B(eNB)、移动装置、移动台、订户台、远程台、接入终端、移动终端、终端、用户终端、订户单元等)。虽然本文中所揭示的系统和方法中的一些系统和方法可能依据一个或一个以上标准来描述,但这不应限制本发明的范围,因为所述系统和方法可适用于许多系统和/或标准。
应注意,一些通信装置可以无线方式通信且/或可使用有线连接或链路通信。举例来说,一些通信装置可使用以太网协议与其它装置通信。本文中所揭示的系统和方法可应用于以无线方式通信和/或使用有线连接或链路通信的通信装置。在一个配置中,本文中所揭示的系统和方法可应用于使用卫星来与另一装置通信的通信装置。
本文中所揭示的系统和方法可应用于如下描述的通信系统的一个实例。在此实例中,本文中所揭示的系统和方法可提供低位速率(例如,2千位/秒(Kbps))语音编码用于地球移动卫星空中接口(GMSA)卫星通信。更具体来说,本文中所揭示的系统和方法可用于集成的卫星和移动通信网络中。这些网络可提供无缝、透明、可共同操作且普遍存在的无线覆盖范围。基于卫星的服务可用于陆地覆盖范围不可达到的远程位置中的通信。举例来说,此服务可用于人为灾害或自然灾害、广播和/或船队管理以及资产跟踪。可使用L和/或S频带(无线)频谱。
在一个配置中,前向链路可使用1x演进数据优化(EV-DO)版本A空中接口作为用于空中卫星链路的基础技术。反向链路可使用频分多路复用(FDM)。举例来说,反向链路频谱的1.25兆赫(MHz)块可划分成192个窄带频道,每一窄带频道具有6.4千赫(kHz)的带宽。可限制反向链路数据速率。这可提出对于低位速率编码的需要。在一些情况下,例如,信道可能仅能够支持2.4Kbps。然而,在较佳信道条件下,2个FDM信道可能为可用的,从而有可能提供4.8Kbps发射。
在反向链路上,例如,可使用低位速率语音编码器。这可允许2Kbps的固定速率用于反向链路上的单个FDM信道指派的活动语音。在一个配置中,反向链路使用1/4卷积译码器用于基本信道编码。
在一些配置中,本文中所揭示的系统和方法可另外用于其它编码模式。举例来说,可结合使用原型音调周期波形内插法(PPPWI)的四分之一速率浊音译码或替代使用原型音调周期波形内插法(PPPWI)的四分之一速率浊音编码而使用本文中所揭示的系统和方法。在PPPWI中,原型波形可用以产生可替代实际波形的内插波形,从而允许减少的数目个样本产生重构的信号。举例来说,PPPWI可在全速率或四分之一速率下可用,且/或可产生时间同步输出。此外,可在PPPWI中在频域中执行量化。QQQ可用于浊音编码模式中(例如,代替FQQ(有效二分之一速率))。QQQ为使用四分之一速率原型音调周期波形内插法(QPPP-WI)以40位/帧(有效地,2千位/秒(kbps))来编码三个连续浊音帧的译码型式。FQQ为分别使用全速率原型音调周期(PPP)、四分之一速率原型音调周期(QPPP)和QPPP来编码三个连续浊音帧的译码型式。这可实现4kbps的平均速率。后者可不用于2kbps声码器中。应注意,可以修改的方式使用四分之一速率原型音调周期(QPPP),其中不进行频域中的原型表示的振幅的差量编码且进行13位线谱频率(LSF)量化。在一个配置中,QPPP可使用13个位用于LSF,12个位用于原型波形振幅,6个位用于原型波形功率,7个位用于音调滞后和2个位用于模式,从而产生总共40个位。
明确地说,本文中所揭示的系统和方法可用于瞬时编码模式(其可提供QPPP所需的种子)。此瞬时编码模式(例如,在2Kbps声码器中)可使用统一模型用于译码上升瞬时、下降瞬时和浊音瞬时。虽然本文中所揭示的系统和方法可尤其应用于瞬时编码模式,但瞬时编码模式并不是其中可应用这些系统和方法的仅有上下文。其可另外或替代地应用于其它编码模式。
本文中所揭示的系统和方法描述执行音调估计。在一些配置中,估计音调滞后可部分地通过反复地修剪线性预测译码(LPC)残余中的包括峰值间距离的候选音调值来实现。可需要准确的音调估计以在位速率非常低的声码器中产生良好的经译码语音质量。一些传统的音调估计算法使用信号的长期统计从语音信号帧和/或对应的LPC残余估计音调。此估计通常对于非稳定的瞬时帧为不可靠的。换句话说,这可能不会为非稳定的瞬时语音帧给出准确的估计。
本文中所揭示的系统和方法可通过使用语音帧中的短时间(例如,局部)特性且/或通过使用迭代算法在若干候选者当中选择理想的(例如,最佳可用的)音调值来较可靠地估计音调。举例来说,这可改进低位速率声码器中的语音质量,进而改进所记录或所发射语音质量。更具体来说,本文中所揭示的系统和方法可使用一种估计算法,其提供比传统技术准确的对音调的估计且因此在声码器中针对低位速率编码模式产生改进的语音质量。
现参看各图描述各种配置,其中相同参考数字可指示功能上相似的元件。如本文中各图中大体描述和说明的系统和方法可以广泛多种不同配置来布置和设计。因此,如各图中所表示的若干配置的以下较详细描述并不希望限制如所主张的范围,而是仅表示所述系统和方法。
图1为说明其中可实施用于估计音调滞后的系统和方法的电子装置102的一个配置的框图。另外或替代地,可在电子装置102中实施用于解码语音信号的系统和方法。电子装置A102可包括编码器104。编码器104的一个实例为线性预测译码(LPC)编码器。编码器104可由电子装置A102使用以编码语音信号106。举例来说,编码器104通过估计或产生可用以合成语音信号的参数集合来将语音信号106编码成“经压缩”格式。在一个配置中,这些参数可表示可用以合成语音信号106的音调(例如,频率)、振幅和共振峰(例如,共振)的估计。编码器104可包括音调估计块/模块126,其根据本文中所揭示的系统和方法来估计音调滞后。如本文中所使用,术语“块/模块”可用以指示可以硬件、软件或两者的组合实施特定元件。应注意,可以多种方式实施音调估计块/模块126。举例来说,音调估计块/模块126可包含峰值搜索块/模块128、置信测度块/模块134和/或音调滞后确定块/模块138。在其它配置中,说明为包括在音调估计块/模块126内的块/模块中的一者或一者以上可被省略且/或由其它块/模块替代。另外或替代地,音调估计块/模块126可被定义为包括其它块/模块,例如线性预测译码(LPC)分析块/模块122。
电子装置A102可获得语音信号106。在一个配置中,电子装置A102通过使用麦克风俘获声学信号且/或对其取样来获得语音信号106。在另一配置中,电子装置A102从另一装置(例如,蓝牙头戴耳机、通用串行总线(USB)驱动器、安全数字(SD)卡、网络接口、无线麦克风等)接收语音信号106。可将语音信号106提供到成帧块/模块108。
电子装置A102可使用成帧块/模块108将语音信号106分段成一个或一个以上帧110。举例来说,帧110可包括特定数目个语音信号106样本且/或包括某一时间量(例如,10到20毫秒)的语音信号106。当语音信号106被分段成多个帧110时,可根据其所含有的信号来对帧110进行分类。举例来说,帧110可为浊音帧、清音帧、静音帧或瞬时帧。本文中所揭示的系统和方法可用以估计帧110(例如,瞬时帧、浊音帧等)中的音调滞后。
举例来说,瞬时帧可位于一个语音类别与另一语音类别之间的边界上。举例来说,语音信号106可从清音(例如,f、s、sh、th等)转变成浊音(例如,a、e、i、o、u等)。一些瞬时类型包括上升瞬时(例如,当从语音信号106的清音部分转变到浊音部分时)、爆破音、浊音瞬时(例如,线性预测译码(LPC)改变和音调滞后变化)和下降瞬时(例如,当从语音信号106的浊音部分转变到清音或静音部分(例如,词结尾)时)。在两个语音类别之间的帧110可为瞬时帧。本文中所揭示的系统和方法可有益地应用于瞬时帧,因为传统的方法可能不会在瞬时帧中提供准确的音调滞后估计。然而,应注意,本文中所揭示的系统和方法可应用于其它种类的帧。
编码器104可使用线性预测译码(LPC)分析块/模块122来对帧110执行线性预测分析(例如,LPC分析)。应注意,LPC分析块/模块122可另外或替代地使用来自其它帧110(例如,来自先前帧110)的一个或一个以上样本。LPC分析块/模块122可产生一个或一个以上LPC系数120。可将LPC系数120提供到量化块/模块118,其可产生一个或一个以上经量化LPC系数116。可将所述经量化LPC系数116和来自一个或一个以上帧110的一个或一个以上样本提供到残余确定块/模块112,其可用以确定残余信号114。举例来说,残余信号114可包括已使共振峰或共振峰的效应从语音信号106移除的语音信号106的帧110。可将残余信号114提供到音调估计块/模块126。
编码器104可包括音调估计块/模块126。在图1所说明的实例中,音调估计块/模块126包括峰值搜索块/模块128、置信测度块/模块134和音调滞后确定块/模块138。然而,峰值搜索块/模块128和/或置信测度块/模块134可为任选的,且可用确定一个或一个以上音调(例如,音调滞后)候选者132和/或置信测度136的一个或一个以上其它块/模块替代。如图1中所说明,音调滞后确定块/模块138可使用迭代修剪算法140。然而,迭代修剪算法140可为任选的,且可在本文中所揭示的系统和方法的一些配置中省略。换句话说,音调滞后确定块/模块138可在一些配置中在不使用迭代修剪算法140的情况下确定音调滞后,且举例来说,可使用某种其它方法或算法(例如平滑或平均算法)来确定音调滞后142。
峰值搜索块/模块128可搜索残余信号114中的峰值。换句话说,编码器104可搜索残余信号114中的峰值(例如,高能量的区域)。可识别这些峰值以获得峰值列表或集合。举例来说,可依据样本编号和/或时间来指定峰值列表或集合中的峰值位置。下文给出关于获得峰值列表或集合的更多细节。
峰值搜索块/模块128可包括候选者确定块/模块130。候选者确定块/模块130可使用所述峰值集合以便确定一个或一个以上候选者音调滞后132。“音调滞后”可为帧110中的两个连续音调尖峰之间的“距离”。举例来说,可以样本数目和/或时间量来指定音调滞后。在一个配置中,峰值搜索块/模块128可确定峰值之间的距离以便确定音调滞后候选者132。在非常稳定的话音或语音信号中,音调滞后可保持几乎恒定。
用于估计音调滞后的一些传统方法使用自相关。在那些方法中,使LPC残余抵靠着其自身滑动以进行相关。在那些方法中可将具有最大自相关性值的任何相关性或音调滞后确定为帧的音调。那些方法可在语音帧非常稳定时起作用。然而,存在其中音调结构可能不非常稳定的其它帧,例如在瞬时帧中。即使当语音帧是稳定的时,传统方法也可能归因于系统中的噪声而不会提供非常准确的音调估计。噪声可减小残余的“有峰”程度。在此情况下,举例来说,传统方法可确定不是非常准确的音调估计。
峰值搜索块/模块128可使用相关方法获得音调滞后候选者集合132。举例来说,可首先由候选者确定块/模块130确定候选音调滞后集合132。接着,可由置信测度块/模块134基于候选音调滞后集合132而确定对应于所述候选音调滞后集合的置信测度集合136。更具体来说,第一集合可为音调滞后候选者集合132,且第二集合可为用于音调滞后候选者132中的每一者的置信测度集合136。因此,举例来说,第一置信测度或值可对应于第一音调滞后候选者,等等。因此,可“构建”或确定音调滞后候选者集合132和置信测度集合136。置信测度集合136可用以改进所估计的音调滞后142的准确性。在一个配置中,置信测度集合136可为相关性集合,其中每一值可为(在基础方面中)对应于音调滞后候选者的音调滞后处的相关性。换句话说,用于每一特定音调滞后的相关性系数可构成用于音调滞后候选者132距离中的每一者的置信测度。
可将音调滞后候选者集合132和/或置信测度集合136提供到音调滞后确定块/模块138。音调滞后确定块/模块138可基于一个或一个以上音调滞后候选者132确定音调滞后142。在一些配置中,音调滞后确定块/模块138可基于一个或一个以上置信测度136(除所述一个或一个以上音调滞后候选者132之外)确定音调滞后142。举例来说,音调滞后确定块/模块可使用迭代修剪算法140来选择所述音调滞后值中的一者。下文给出关于迭代修剪算法140的更多细节。所选择的音调滞后142值可为“真实”音调滞后的估计。
在其它配置中,音调滞后确定块/模块138可使用某种其它方法来确定音调滞后142。举例来说,代替迭代修剪算法140或除迭代修剪算法140之外,音调滞后确定块/模块138可使用平均或平滑算法。
可将由音调滞后确定块/模块138确定的音调滞后142提供到激励合成块/模块148和比例因子确定块/模块152。激励合成块/模块148可基于音调滞后142和由原型波形产生块/模块144提供的波形146产生或合成激励150。在一个配置中,原型波形产生块/模块144可基于音调滞后142产生波形146。可将激励150、音调滞后142和/或经量化LPC系数116提供到比例因子确定块/模块152,其可基于激励150、音调滞后142和/或经量化LPC系数116产生增益集合154。可将增益集合154提供到增益量化块/模块156,其量化增益集合154以产生经量化增益集合158。
音调滞后142、经量化LPC系数116和/或经量化增益158可被称为经编码的语音信号。可解码所述经编码的语音信号以便产生经合成的语音信号。可将音调滞后142、经量化LPC系数116和/或经量化增益158(例如,经编码的语音信号)发射到另一装置、将其存储且/或解码。
在一个配置中,电子装置A102可包括发射(TX)和/或接收(RX)块/模块160。可将音调滞后142、经量化LPC系数116和/或经量化增益158提供到TX/RX块/模块160。TX/RX块/模块160可将音调滞后142、经量化LPC系数116和/或经量化增益158格式化为适合于发射的格式。举例来说,TX/RX块/模块160可将音调滞后142、经量化LPC系数116和/或经量化增益158编码、调节、按比例缩放(例如,放大)且/或以其它方式格式化为一个或一个以上消息166。TX/RX块/模块160可将所述一个或一个以上消息166发射到另一装置,例如电子装置B168。所述一个或一个以上消息166可使用无线和/或有线连接或链路来发射。在一些配置中,所述一个或一个以上消息166可通过卫星、基站、路由器、交换器和/或其它装置或媒体来中继传递到电子装置B168。
电子装置B168可使用TX/RX块/模块170接收由电子装置A102发射的所述一个或一个以上消息166。所述TX/RX块/模块170可解码、解调且/或以其它方式解格式化所述一个或一个以上所接收的消息166以产生经编码的语音信号172。举例来说,所述经编码的语音信号172可包含音调滞后、经量化LPC系数和/或经量化增益。可将所述经编码的语音信号172提供到解码器174(例如,LPC解码器),所述解码器可解码(例如,合成)所述经编码的语音信号172以便产生经合成的语音信号176。可使用换能器(例如,扬声器)将所述经合成的语音信号176转换为声学信号(例如,输出)。应注意,所述电子装置B168对于本文中所揭示的系统和方法的使用来说不是必要的,而是被说明为其中可使用本文中所揭示的系统和方法的一个可能配置的一部分。
在另一配置中,可将音调滞后142、经量化LPC系数116和/或经量化增益158(例如,经编码的语音信号)提供到解码器162(在电子装置A102上)。解码器162可使用音调滞后142、经量化LPC系数116和/或经量化增益158来产生经合成的语音信号164。举例来说,可使用扬声器输出经合成的语音信号164。举例来说,电子装置A102可为数字话音记录器,其编码语音信号106并将之存储在存储器中,所述语音信号106可接着被解码以产生经合成的语音信号164。可使用换能器(例如,扬声器)将经合成的语音信号164转换为声学信号(例如,输出)。应注意,解码器162并不是根据本文中所揭示的系统和方法来估计音调滞后所必要的,而是被说明为其中可使用本文中所揭示的系统和方法的一个可能配置的一部分。电子装置A102上的解码器162与电子装置B168上的解码器174可执行相似功能。
图2为说明用于估计音调滞后的方法200的一个配置的流程图。举例来说,电子装置102可执行图2中所说明的方法200以便估计语音信号106的帧110中的音调滞后。电子装置102可获得(202)当前帧110。在一个配置中,电子装置102可通过使用麦克风俘获声学语音信号来获得(202)电子语音信号106。另外或替代地,电子装置102可从另一装置接收语音信号106。电子装置102可接着将语音信号106分段成一个或一个以上帧110。举例来说,帧110可包括具有10到20毫秒的持续时间的若干个样本。
电子装置102可使用当前帧110和在当前帧110之前的信号执行(204)线性预测分析以获得线性预测(例如,LPC)系数集合120。举例来说,电子装置102可使用先行缓冲器和含有语音信号106的在当前语音帧110之前的至少一个样本的缓冲器来获得LPC系数120。
电子装置102可基于LPC系数集合120确定(206)经量化线性预测(例如,LPC)系数集合116。举例来说,电子装置102可量化LPC系数集合120以确定(206)经量化LPC系数集合116。
电子装置102可基于当前帧110和经量化LPC系数116获得(208)残余信号114。举例来说,电子装置102可从帧110移除LPC系数116(例如,共振峰)的效应以获得(208)残余信号114。
电子装置102可基于残余信号114确定(210)峰值位置集合。举例来说,电子装置可搜索LPC残余信号114以确定峰值位置集合。举例来说,可依据时间和/或样本编号来描述峰值位置。
在一个配置中,电子装置102可如下确定(210)峰值位置集合。电子装置102可基于(LPC)残余信号114的样本的绝对值和预定窗口信号计算包络信号。电子装置102可接着基于包络信号与包络信号的时间移位版本之间的差而计算第一梯度信号。电子装置102可基于第一梯度信号与第一梯度信号的时间移位版本之间的差而计算第二梯度信号。电子装置102可接着选择第二梯度信号值降低到预定负阈值以下的第一位置索引集合。电子装置102还可通过消除包络值相对于包络中的最大值降低到预定阈值以下的位置索引来从第一位置索引集合确定第二位置索引集合。另外,电子装置102可通过消除相对于相邻位置索引不满足预定差阈值的位置索引来从第二位置索引集合确定第三位置索引集合。位置索引(例如,第一集合、第二集合和/或第三集合)可对应于所确定的峰值集合的位置。
电子装置102可基于峰值位置集合获得(212)音调滞后候选者集合132。举例来说,电子装置102可按递增次序布置峰值位置集合以产生有序峰值位置集合。电子装置102可接着计算有序峰值位置集合中的连续峰值位置对之间的距离。所述连续峰值位置对之间的距离可为音调滞后候选者集合132。
在一些配置中,电子装置102可将基于当前帧的(LPC)残余信号114计算的第一近似音调滞后值添加到音调滞后候选者集合132。在一个实例中,电子装置102可如下计算或估计所述第一近似音调滞后值。电子装置102可基于当前帧110的(LPC)残余信号114估计自相关性值。电子装置102可搜索预定位置范围内的自相关性值以查找最大值。电子装置102还可将所述第一近似音调滞后值设置或确定为出现最大值所在的位置。可将此第一近似音调滞后值添加到音调滞后候选者集合132。第一近似音调滞后值可为由典型的音调估计自相关技术确定的音调滞后值。可在题为“增强型可变速率编解码器,用于宽带展频数字系统的语音服务选项3、68、70和73(Enhanced Variable Rate Codec,Speech Service Options3,68,70,and73for Wideband Spread Spectrum Digital Systems)”的3GPP2文献C.S0014D的章节4.6.3中找到一种实例估计技术。
在一些配置中,电子装置102可进一步将基于先前帧的(LPC)残余信号114计算的第二近似音调滞后值添加到音调滞后候选者集合132。在一个实例中,电子装置102可如下计算或估计第二近似音调滞后值。电子装置102可基于先前帧110的(LPC)残余信号114估计自相关性值。电子装置102可搜索预定位置范围内的自相关性值以查找最大值。电子装置102还可将所述第二近似音调滞后值设置或确定为出现最大值所在的位置。电子装置102可将此第二近似音调滞后值添加到音调滞后候选者集合132。第二近似音调滞后值可为来自先前帧的音调滞后值。
电子装置102可基于音调滞后候选者集合132估计(214)音调滞后142。在一个配置中,电子装置102可使用平滑或平均算法来估计(214)音调滞后142。举例来说,音调滞后确定块/模块138可计算所有音调滞后候选者132的平均值以产生所估计的音调滞后142。在另一配置中,电子装置102可使用迭代修剪算法140来估计(214)音调滞后142。下文给出关于迭代修剪算法140的更多细节。
所估计的音调滞后142可用以产生经合成的激励150和/或增益因子154。另外或替代地,所估计的音调滞后142可被存储、发射且/或提供到解码器162、174。举例来说,解码器162、174可使用所估计的音调滞后142来产生经合成的语音信号164、176。
图3为说明来自残余信号114的峰值378的一个实例的图。如上文所描述,电子装置102可使用残余信号114来确定峰值378a位置集合,可从所述峰值378a位置集合确定(峰值间)距离集合380(例如,音调滞后候选者集合132)。举例来说,电子装置102可确定(210)峰值位置集合378a到378d,如上文结合图2所描述。电子装置102还可确定峰值间距离集合380a到380c(例如,音调滞后候选者132)。应注意,举例来说,可以时间单位或样本数目来指定峰值间距离380a到380c(例如,在连续峰值378之间)。在一个配置中,电子装置102可获得(212)音调滞后候选者集合132(例如,峰值间距离380a到380c),如上文结合图2所描述。峰值间距离集合380a到380c或音调滞后候选者集合132可用以估计音调滞后。在图3中的一组轴上说明峰值间距离集合380a到380c,其中以毫秒时间来说明横轴,且纵轴描绘波形的振幅(例如,信号振幅)。举例来说,所说明的信号振幅可为电压、电流或压力变化。
图4为说明用于估计音调滞后的方法400的另一配置的流程图。电子装置102可获得(402)语音信号106。举例来说,电子装置102可从另一装置接收语音信号106且/或使用麦克风俘获语音信号106。
电子装置102可基于语音信号获得(404)音调滞后候选者集合。举例来说,电子装置102可根据此项技术中已知的任何方法来获得(404)音调滞后候选者集合。或者,电子装置102可根据本文中所揭示的系统和方法来获得(404)音调滞后候选者集合132,如上文结合图2所描述。
电子装置102可确定(406)对应于音调滞后候选者集合132的置信测度集合136。在一个实例中,置信测度集合136可为相关性集合。举例来说,电子装置102可基于信号包络和有序峰值位置集合中的连续峰值位置对计算对应于音调滞后候选者集合132的相关性集合。在一个配置中,电子装置102可如下计算相关性集合。对于有序峰值位置集合中的每一对峰值位置,电子装置102可基于围绕所述对峰值位置中的第一峰值位置的预定范围选择第一信号缓冲器。电子装置102还可基于围绕所述对峰值位置中的第二峰值位置的预定范围选择第二信号缓冲器。接着,电子装置102可计算第一信号缓冲器与第二信号缓冲器之间的经正规化的交叉相关性。可将此经正规化的交叉相关性添加到置信测度集合136或相关性集合。可针对有序峰值位置集合中的每一对峰值位置进行此过程。
在一些配置中,电子装置102可将基于当前帧110的(LPC)残余信号114计算的第一近似音调滞后值添加到音调滞后候选者集合132。电子装置102还可将对应于第一近似音调滞后值的第一音调增益添加到置信测度集合136或相关性集合。
在一个实例中,电子装置102可如下计算或估计第一近似音调滞后值和对应的第一音调增益值。电子装置102可基于当前帧110的(LPC)残余信号114估计自相关性值。电子装置102可搜索预定位置范围内的自相关性值以查找最大值。电子装置102还可将第一近似音调滞后值设置或确定为出现最大值所在的位置,且/或将第一音调增益值设置或确定为所述音调滞后处的经正规化的自相关性。
电子装置102可将基于先前帧110的(LPC)残余信号114计算的第二近似音调滞后值添加到音调滞后候选者集合132。电子装置102可进一步将对应于第二近似音调滞后值的第二音调增益添加到置信测度集合136或相关性集合。
在一个配置中,电子装置102可如下计算或估计第二近似音调滞后值和对应的第二音调增益值。电子装置102可基于先前帧110的(LPC)残余信号114估计自相关性值。电子装置102可搜索预定位置范围内的自相关性值以查找最大值。电子装置102还可将第二近似音调滞后值设置或确定为出现最大值所在的位置,且/或将第二音调增益值设置或确定为所述音调滞后处的经正规化的自相关性。
电子装置102可使用迭代修剪算法基于音调滞后候选者集合和置信测度集合136估计(408)音调滞后。在迭代修剪算法的一个实例中,电子装置102可基于音调滞后候选者集合132和置信测度集合136来计算经加权均值。电子装置102可确定音调滞后候选者集合132中的最远离经加权均值的音调滞后候选者。电子装置102可接着从音调滞后候选者集合132中移除最远离经加权均值的音调滞后候选者。可从置信测度集合136中移除对应于所移除的音调滞后候选者的置信测度。可重复此过程,直到所剩余的音调滞后候选者132的数目减小到指定数目为止。可接着基于所述一个或一个以上剩余的音调滞后候选者132来确定音调滞后142。举例来说,如果仅剩余一个音调滞后候选者,则可将所剩余的最后一个音调滞后候选者确定为音调滞后。举例来说,如果剩余一个以上音调滞后候选者,则电子装置102可将音调滞后142确定为所剩余的候选者的平均值。
图5为说明用于估计音调滞后的方法500的较特定配置的流程图。电子装置102可获得(502)当前帧110。在一个配置中,电子装置102可通过使用麦克风俘获声学语音信号来获得(502)电子语音信号106。另外或替代地,电子装置102可从另一装置接收语音信号106。电子装置102可接着将所述语音信号106分段成一个或一个以上帧110。
电子装置102可使用当前帧110和在当前帧110之前的信号执行(504)线性预测分析以获得线性预测(例如,LPC)系数集合120。举例来说,电子装置102可使用先行缓冲器和含有语音信号106的在当前语音帧110之前的至少一个样本的缓冲器来获得LPC系数120。
电子装置102可基于LPC系数集合120确定(506)经量化LPC系数集合116。举例来说,电子装置102可量化LPC系数集合120以确定(506)经量化LPC系数集合116。
电子装置102可基于当前帧110和经量化LPC系数116获得(508)残余信号114。举例来说,电子装置102可从帧110移除LPC系数116(例如,共振峰)的效应以获得(508)残余信号114。
电子装置102可基于残余信号114确定(510)峰值位置集合。举例来说,电子装置可搜索LPC残余信号114以确定峰值位置集合。举例来说,可依据时间和/或样本编号来描述峰值位置。
在一个配置中,电子装置102可如下确定(510)峰值位置集合。电子装置102可基于(LPC)残余信号114的样本的绝对值和预定窗口信号计算包络信号。电子装置102可接着基于包络信号与包络信号的时间移位版本之间的差而计算第一梯度信号。电子装置102可基于第一梯度信号与第一梯度信号的时间移位版本之间的差而计算第二梯度信号。电子装置102可接着选择第二梯度信号值降低到预定负阈值以下的第一位置索引集合。电子装置102还可通过消除包络值相对于包络中的最大值降低到预定阈值以下的位置索引来从第一位置索引集合确定第二位置索引集合。另外,电子装置102可通过消除相对于相邻位置索引不为预定差阈值的位置索引来从第二位置索引集合确定第三位置索引集合。位置索引(例如,第一集合、第二集合和/或第三集合)可对应于所确定的峰值集合的位置。
电子装置102可基于峰值位置集合获得(512)音调滞后候选者集合132。举例来说,电子装置102可按递增次序布置峰值位置集合以产生有序峰值位置集合。电子装置102可接着计算有序峰值位置集合中的连续峰值位置对之间的距离。所述连续峰值位置对之间的距离可为音调滞后候选者集合132。
电子装置102可确定(514)对应于音调滞后候选者集合132的置信测度集合136。在一个实例中,置信测度集合136可为相关性集合。举例来说,电子装置102可基于信号包络和有序峰值位置集合中的连续峰值位置对计算对应于音调滞后候选者集合132的相关性集合。在一个配置中,电子装置102可如下计算相关性集合。对于有序峰值位置集合中的每一对峰值位置,电子装置102可基于围绕所述对峰值位置中的第一峰值位置的预定范围选择第一信号缓冲器。电子装置102还可基于围绕所述对峰值位置中的第二峰值位置的预定范围选择第二信号缓冲器。接着,电子装置102可计算第一信号缓冲器与第二信号缓冲器之间的经正规化的交叉相关性。可将此经正规化的交叉相关性添加到置信测度集合136或相关性集合。可针对有序峰值位置集合中的每一对峰值位置进行此过程。
电子装置102可将基于当前帧110的(LPC)残余信号114计算的第一近似音调滞后值添加(516)到音调滞后候选者集合132。电子装置102还可将对应于第一近似音调滞后值的第一音调增益添加(518)到置信测度集合136或相关性集合。
在一个实例中,电子装置102可如下计算或估计第一近似音调滞后值和对应的第一音调增益值。电子装置102可基于当前帧110的(LPC)残余信号114估计自相关性值。电子装置102可搜索预定位置范围内的自相关性值以查找最大值。电子装置102还可将第一近似音调滞后值设置或确定为出现最大值所在的位置,且/或将第一音调增益值设置或确定为所述音调滞后处的经正规化的自相关性。
电子装置102可将基于先前帧110的(LPC)残余信号114计算的第二近似音调滞后值添加(520)到音调滞后候选者集合132。电子装置102可进一步将对应于第二近似音调滞后值的第二音调增益添加(522)到置信测度集合136或相关性集合。
在一个配置中,电子装置102可如下计算或估计第二近似音调滞后值和对应的第二音调增益值。电子装置102可基于先前帧110的(LPC)残余信号114估计自相关性值。电子装置102可搜索预定位置范围内的自相关性值以查找最大值。举例来说,所述预定位置范围可为20到140,其为在8千赫兹(kHz)取样速率下用于人类语音的典型的音调滞后范围。电子装置102还可将第二近似音调滞后值设置或确定为出现最大值所在的位置,且/或将第二音调增益值设置或确定为所述音调滞后处的经正规化的自相关性。
电子装置102可使用迭代修剪算法140基于音调滞后候选者集合132和置信测度集合136估计(524)音调滞后。在迭代修剪算法140的一个实例中,电子装置102可基于音调滞后候选者集合132和置信测度集合136来计算经加权均值。电子装置102可确定音调滞后候选者集合132中的最远离经加权均值的音调滞后候选者。电子装置102可接着从音调滞后候选者集合132中移除最远离经加权均值的音调滞后候选者。可从置信测度集合136中移除对应于所移除的音调滞后候选者的置信测度。可重复此过程,直到所剩余的音调滞后候选者132的数目减小到指定数目为止。可接着基于所述一个或一个以上剩余的音调滞后候选者132来确定音调滞后142。举例来说,如果仅剩余一个音调滞后候选者,则可将所剩余的最后一个音调滞后候选者确定为音调滞后。举例来说,如果剩余一个以上音调滞后候选者,则电子装置102可将音调滞后142确定为所剩余的候选者的平均值。
使用图5中所说明的方法500可为有益的,尤其是对于瞬时帧和其它种类的帧,其中传统的音调滞后估计可能不是非常准确的。然而,图5中所说明的方法500可应用于其它类别或种类的帧(例如,性质良好的话音或语音帧)。在一些配置中,图5中所说明的方法500可选择性地应用于某些种类的帧(例如,瞬时和/或有噪声帧,等)。
图6为说明用于使用迭代修剪算法140估计音调滞后的方法600的一个配置的流程图。在一个配置中,可如下指定修剪算法140。修剪算法140可使用音调滞后候选者集合132(表示为{di})和置信测度(例如,相关性)集合136(表示为{ci})。i=1,...,L,其中L为音调滞后候选者的数目,且L>N。N为可表示将在修剪之后剩余的音调滞后候选者的所要数目的指定数目。在一个配置中,N=1。
电子装置102可基于音调滞后候选者集合132{di}和置信测度(例如,相关性)集合136{ci}计算(602)经加权均值(表示为Mw)。这可针对L个候选者来进行,如方程式(1)中所说明。
电子装置102可确定(604)音调滞后候选者集合132中的最远离经加权均值的音调滞后候选者(表示为dk)。举例来说,电子装置102可找到dk,使得dk的距均值的距离大于所有其它音调滞后候选者的距均值的距离。在方程式(2)中说明此过程的一个实例。
找到dk,使得对于所有i(i≠k),|Mw-dk|>|Mw-di| (2)
电子装置102可从音调滞后候选者集合132{di}中移除(606)(例如,“修剪”)最远离经加权均值的音调滞后候选者dk。电子装置可从置信测度(例如,相关性)集合136{ci}中移除(608)对应于最远离经加权均值的音调滞后候选者的置信测度(例如,相关性)ck。可将剩余音调滞后候选者数目(例如,L的值)减小1(举例来说,当从其集合132移除(606)音调滞后候选者时和/或当从其集合136移除置信测度时)。举例来说,L=L-1。
电子装置102可确定(610)剩余音调滞后候选者数目(例如,L)是否等于指定数目(例如,N)。举例来说,电子装置102可确定是否存在等于指定数目的一个或一个以上剩余音调滞后候选者(例如,L=N=1)。如果存在超过指定数目的剩余音调滞后候选者,则电子装置102可返回到计算(602)经加权均值以便找到并移除最远离经加权均值的候选者。换句话说,可反复或重复进行所述方法600中的前四个步骤602、604、606、608,直到剩余音调滞后候选者数目被减小到指定数目为止。
如果剩余候选者数目(例如,L)等于指定数目(例如,N),则电子装置102可基于所述一个或一个以上剩余音调滞后候选者(在音调滞后候选者集合132中)确定(612)音调滞后。举例来说,在指定数目(例如,N)为一的情况下,则可将最后一个剩余音调滞后候选者确定(612)为音调滞后142。在另一实例中,如果指定数目(例如,N)大于一,则电子装置102可将音调滞后142确定(612)为剩余音调滞后候选者的平均值(例如,所述集合{di}中的N个剩余音调滞后候选者的平均值)。
图7为说明其中可实施用于估计音调滞后的系统和方法的编码器704的一个配置的框图。编码器704的一个实例为线性预测译码(LPC)编码器。编码器704可由电子装置用以编码语音信号706。举例来说,编码器704通过估计或产生参数集合来将语音信号706编码成“经压缩”格式。在一个配置中,这些参数可包括音调滞后742(估计)、一个或一个以上经量化增益758和/或经量化LPC系数716。这些参数可用以合成所述语音信号706。
编码器704可包括一个或一个以上块/模块,其可用以根据本文中所揭示的系统和方法来估计音调滞后。在一个配置中,这些块/模块可被称为音调估计块/模块726。应注意,可以多种方式实施音调估计块/模块726。举例来说,音调估计块/模块726可包含峰值搜索块/模块728、置信测度块/模块734和/或音调滞后确定块/模块738。在其它配置中,音调估计块/模块726可省略这些块/模块728、734、738中的一者或一者以上或用其它块/模块替代这些块/模块728、734、738中的一者或一者以上。另外或替代地,音调估计块/模块726可被定义为包括其它块/模块,例如线性预测译码(LPC)分析块/模块722。
在图7所说明的实例中,编码器704包括峰值搜索块/模块728、置信测度块/模块734和音调滞后确定块/模块738。然而,峰值搜索块/模块728和/或置信测度块/模块734可为任选的,且可用确定一个或一个以上音调(例如,音调滞后)候选者732和/或置信测度736的一个或一个以上其它块/模块替代。
如图7中所说明,音调滞后确定块/模块738可使用迭代修剪算法740。然而,迭代修剪算法740可为任选的,且可在本文中所揭示的系统和方法的一些配置中省略。换句话说,音调滞后确定块/模块738可在一些配置中在不使用迭代修剪算法740的情况下确定音调滞后,且举例来说,可使用某种其它方法或算法(例如平滑或平均算法)来确定音调滞后742。
可(例如,由电子装置)获得语音信号706。可将语音信号706提供到成帧块/模块708。成帧块/模块708可将语音信号706分段成一个或一个以上帧710。举例来说,帧710可包括特定数目的语音信号706样本且/或包括某一时间量(例如,10到20毫秒)的语音信号706。当语音信号706被分段成多个帧710时,可根据其含有的信号来对帧710进行分类。举例来说,帧710可为浊音帧、清音帧、静音帧或瞬时帧。本文中所揭示的系统和方法可用以估计帧710(例如,瞬时帧、浊音帧等)中的音调滞后。
举例来说,瞬时帧可位于一个语音类别与另一语音类别之间的边界上。举例来说,语音信号706可从清音(例如,f、s、sh、th等)转变成浊音(例如,a、e、i、o、u等)。一些瞬时类型包括上升瞬时(例如,当从语音信号706的清音部分转变到浊音部分时)、爆破音、浊音瞬时(例如,线性预测译码(LPC)改变和音调滞后变化)和下降瞬时(例如,当从语音信号706的浊音部分转变到清音或静音部分(例如,词结尾)时)。在两个语音类别之间的帧710可为瞬时帧。本文中所揭示的系统和方法可有益地应用于瞬时帧,因为传统方法可能不会提供瞬时帧中准确的音调滞后估计。然而,应注意,本文中所揭示的系统和方法可应用于其它种类的帧。
编码器704可使用线性预测译码(LPC)分析块/模块722来对帧710执行线性预测分析(例如,LPC分析)。应注意,LPC分析块/模块722可另外或替代地使用来自其它帧710(例如,来自先前帧710)的信号(例如,一个或一个以上样本)。LPC分析块/模块722可产生一个或一个以上LPC系数720。可将LPC系数720提供到量化块/模块718且/或提供到LPC合成块/模块798。
量化块/模块718可产生一个或一个以上经量化LPC系数716。可将经量化LPC系数716提供到比例因子确定块/模块752,且/或可从编码器704输出经量化LPC系数716。可将经量化LPC系数716和来自一个或一个以上帧710的一个或一个以上样本提供到残余确定块/模块712,其可用以确定残余信号714。举例来说,残余信号714可包括已使共振峰(例如,经量化系数716)或共振峰的效应从语音信号706移除(由残余确定块/模块712)的语音信号706的帧710。可将残余信号714提供到规则化块/模块794。
规则化块/模块794可使残余信号714规则化,从而产生经修改的(例如,经规则化的)残余信号796。规则化的一个实例在题为“增强型可变速率编解码器,用于宽带展频数字系统的语音服务选项3、68、70和73(Enhanced Variable Rate Codec,Speech ServiceOptions3,68,70,and73for Wideband Spread Spectrum Digital Systems)”的3GPP2文献C.S0014D的章节4.11.6中详细描述。基本上,规则化可使当前帧中的音调脉冲来回移动以将其与平滑演进的音调轮廓对齐。可将所述经修改的残余信号796提供到峰值搜索块/模块728且/或提供到LPC合成块/模块798。LPC合成块/模块798可产生(例如,合成)经修改的语音信号701,其可被提供到比例因子确定块/模块752。
峰值搜索块/模块728可搜索以查找经修改的残余信号796中的峰值。换句话说,编码器704可搜索以查找经修改的残余信号796中的峰值(例如,高能量的区域)。可识别这些峰值以获得峰值位置集合707。举例来说,可依据样本编号和/或时间来指定峰值位置集合707中的峰值位置。在一些配置中,峰值搜索块/模块可将峰值位置集合707提供到一个或一个以上块/模块,例如比例因子确定块/模块752和/或峰值映射块/模块703。举例来说,峰值位置集合707可表示经修改的残余信号796中的“实际”峰值的位置。
峰值搜索块/模块728可包括候选者确定块/模块730。候选者确定块/模块730可使用峰值集合以便确定一个或一个以上候选音调滞后732。“音调滞后”可为帧710中的两个连续音调尖峰之间的“距离”。举例来说,可以样本数目和/或时间量来指定音调滞后。在一个配置中,峰值搜索块/模块728可确定峰值之间的距离以便确定音调滞后候选者732。举例来说,这可通过采用两个峰值位置(例如,按时间和/或样本编号)的差来进行。
用于估计音调滞后的一些传统方法使用自相关。在那些方法中,使LPC残余抵靠着其自身滑动以进行相关。可在那些方法中将具有最大自相关性值的任何相关性或音调滞后确定为帧的音调。那些方法可在语音帧非常稳定时起作用。然而,存在其中音调结构可能不非常稳定的其它帧,例如在瞬时帧中。即使当语音帧为稳定的时,传统方法也可能归因于系统中的噪声而不会提供非常准确的音调估计。噪声可减小残余的“有峰”程度。在此情况下,举例来说,传统方法可确定不是非常准确的音调估计。
峰值搜索块/模块728可使用相关方法获得音调滞后候选者集合732。举例来说,可首先由候选者确定块/模块730确定候选音调滞后集合732。接着,可由置信测度块/模块734基于音调滞后候选者集合732确定对应于所述候选音调滞后集合的置信测度集合736。更具体来说,第一集合可为音调滞后候选者集合732,且第二集合可为用于音调滞后候选者732中的每一者的置信测度集合736。因此,举例来说,第一置信测度或值可对应于第一音调滞后候选者,等等。因此,可“构建”或确定音调滞后候选者集合732和置信测度集合736。置信测度集合736可用以改进所估计的音调滞后742的准确性。在一个配置中,置信测度集合736可为相关性集合,其中每一值可为(在基础方面中)对应于音调滞后候选者的音调滞后处的相关性。换句话说,用于每一特定音调滞后的相关性系数可构成用于音调滞后候选者732距离中的每一者的置信测度。
在一些配置中,峰值搜索块/模块728可将基于当前帧710的经修改的残余信号796计算的第一近似音调滞后值添加到音调滞后候选者集合732。置信测度块/模块734还可将对应于第一近似音调滞后值的第一音调增益添加到置信测度集合736或相关性集合。
在一个实例中,峰值搜索块/模块728可如下计算或估计第一近似音调滞后值。可基于当前帧710的经修改的残余信号796来估计自相关性值。峰值搜索块/模块728可搜索预定位置范围内的自相关性值以查找最大值。峰值搜索块/模块728还可将第一近似音调滞后值设置或确定为出现最大值所在的位置。第一近似滞后可基于自相关性函数中的最大值。第一近似音调滞后值可作为音调滞后候选者添加到音调滞后候选者集合732,且/或可作为峰值位置添加到峰值位置集合707。置信测度块/模块734可将第一音调增益值(例如,置信测度)设置或确定为所述音调滞后处的经正规化的自相关性。这可基于由峰值搜索块/模块728提供的第一近似音调滞后值来进行。可将第一音调增益值(例如,置信测度)添加到置信测度集合736。
在一些配置中,峰值搜索块/模块728可将基于先前帧710的经修改的残余信号796计算的第二近似音调滞后值添加到音调滞后候选者集合732。置信测度块/模块734可进一步将对应于第二近似音调滞后值的第二音调增益添加到置信测度集合736或相关性集合。
在一个实例中,峰值搜索块/模块728可如下计算或估计第二近似音调滞后值。可基于先前帧710的经修改的残余信号796来估计自相关性值。峰值搜索块/模块728可搜索预定位置范围内的自相关性值以查找最大值。峰值搜索块/模块728还可将第二近似音调滞后值设置或确定为出现最大值所在的位置。第二近似音调滞后值可为来自先前帧的音调滞后值。第二近似音调滞后值可作为音调滞后候选者添加到音调滞后候选者集合732,且/或可作为峰值位置添加到峰值位置集合707。置信测度块/模块734可将第二音调增益值(例如,置信测度)设置或确定为所述音调滞后处的经正规化的自相关性。这可基于由峰值搜索块/模块728提供的第二近似音调滞后值来进行。可将第二音调增益值(例如,置信测度)添加到置信测度集合736。
可将音调滞后候选者集合732和/或置信测度集合736提供到音调滞后确定块/模块738。音调滞后确定块/模块738可基于一个或一个以上音调滞后候选者732确定音调滞后742。在一些配置中,音调滞后确定块/模块738可基于一个或一个以上置信测度736(除所述一个或一个以上音调滞后候选者732之外)确定音调滞后742。举例来说,音调滞后确定块/模块738可使用迭代修剪算法740来选择所述音调滞后值中的一者。上文给出关于迭代修剪算法740的更多细节。所选择的音调滞后742值可为“真实”音调滞后的估计。
在其它配置中,音调滞后确定块/模块738可使用某种其它方法来确定音调滞后742。举例来说,代替迭代修剪算法740或除迭代修剪算法740之外,音调滞后确定块/模块738可使用平均或平滑算法。
可将由音调滞后确定块/模块738确定的音调滞后742提供到激励合成块/模块748和比例因子确定块/模块752。可将来自先前帧710的经修改的残余信号796提供到激励合成块/模块748。另外或替代地,可由原型波形产生块/模块744将波形746提供到激励合成块/模块748。在一个配置中,原型波形产生块/模块744可基于音调滞后742产生波形746。激励合成块/模块748可基于音调滞后742、(先前帧)经修改的残余796和/或波形746产生或合成激励750。经合成的激励750可包括经合成的激励中的峰值的位置。
在一个配置中,原型波形产生块/模块744和/或激励合成块/模块748可根据方程式(3)到(5)来操作。举例来说,原型波形产生块/模块744可产生一个或一个以上具有长度PL(例如,音调滞后742的长度)的原型波形746。
在方程式(3)中,mag为量值系数,PL为音调(例如,音调滞后估计742), 且i为索引或样本编号。
在方程式(4)中,phi为相位系数。可设置mag和phi系数以便产生原型波形746。
在方程式(5)中,ω(k)为原型波形(例如,原型波形746),a(j)=mag[j]×cos(phi[j]),b(j)=mag[j]×sin(phi[j]),且k为区段编号。
可将经合成的激励(例如,经合成的激励峰值位置)750提供到峰值映射块/模块703且/或提供到比例因子确定块/模块752。峰值映射块/模块703可使用峰值位置集合707(其可为来自经修改的残余信号796的“真实”峰值的位置的集合)和经合成的激励750(例如,经合成的激励750中的峰值的位置)来产生映射705。可将映射705提供到比例因子确定块/模块752。
可将映射705、音调滞后742、经量化LPC系数716和/或经修改的语音信号701提供到比例因子确定块/模块752。比例因子确定块/模块752可基于映射705、音调滞后742、经量化LPC系数716和/或经修改的语音信号701产生增益集合754。可将增益集合754提供到增益量化块/模块756,所述增益量化块/模块756量化所述增益集合754以产生经量化增益集合758。
可从编码器704输出音调滞后742、经量化LPC系数716和/或经量化增益758。这些信息片段742、716、758中的一者或一者以上可用以解码且/或产生经合成的语音信号。举例来说,电子装置可发射、存储且/或使用所述信息742、716、758中的一些或全部来解码或合成语音信号。举例来说,可将信息742、716、758提供到发射器,在所述发射器处可对所述信息进行格式化(例如,编码、调制等)以供发射到另一装置。在另一实例中,可存储信息742、716、758以供稍后检索和/或解码。可使用扬声器(在与编码器704相同的装置上和/或在不同装置上)输出基于信息742、716、758中的一些或全部的经合成的语音信号。
在一个配置中,可对音调滞后742、经量化LPC系数716和/或经量化增益758中的一者或一者以上进行格式化(例如,编码)以供发射到另一装置。举例来说,可使用若干个位将信息742、716、758中的一些或全部编码成对应参数。“编码模式指示符”可为任选参数,其可指示可使用的其它编码模式,所述其它编码模式在下文中结合图10和11较详细地描述。
图8为说明解码器809的一个配置的框图。解码器809可包括激励合成块/模块817和/或音调同步增益按比例缩放和LPC合成块/模块823。在一个配置中,解码器809可位于与编码器704相同的电子装置上。在另一配置中,解码器809可位于与编码器704所位于的电子装置不同的电子装置上。
解码器809可获得或接收可用以产生经合成的语音信号827的一个或一个以上参数。举例来说,解码器809可获得一个或一个以上增益821、先前帧残余信号813、音调滞后815和/或一个或一个以上LPC系数825。
可将先前帧残余813提供到激励合成块/模块817。可从先前经解码的帧导出先前帧残余813。还可将音调滞后815提供到激励合成块/模块817。激励合成块/模块817可合成激励819。举例来说,激励合成块/模块817可基于先前帧残余813和/或音调滞后815合成瞬时激励819。
可将所述经合成的激励819、所述一个或一个以上(经量化)增益821和/或所述一个或一个以上LPC系数825提供到音调同步增益按比例缩放和LPC合成块/模块823。音调同步增益按比例缩放和LPC合成块/模块823可基于所述经合成的激励819、所述一个或一个以上(经量化)增益821和/或所述一个或一个以上LPC系数825产生经合成的语音信号827。可从解码器809输出经合成的语音信号827。举例来说,经合成的语音信号827可被存储在存储器中或使用扬声器输出(例如,转换成声学信号)。
图9为说明用于解码语音信号的方法900的一个配置的流程图。电子装置可获得(902)一个或一个以上参数。举例来说,电子装置可从存储器检索一个或一个以上参数,且/或可从另一装置接收一个或一个以上参数。举例来说,电子装置可接收音调滞后参数、增益参数(表示一个或一个以上增益)和/或LPC参数(表示LPC系数825)。另外或替代地,电子装置可获得(902)先前帧残余信号813。
电子装置可基于音调滞后参数确定(904)音调滞后815。举例来说,音调滞后参数可用7个位来表示。电子装置可使用这些位来确定(904)可用以合成激励819的音调滞后815。电子装置可合成(906)激励信号819。电子装置可基于一个或一个以上增益821(例如,比例因子)按比例缩放(908)激励信号819以产生经按比例缩放的激励信号。举例来说,电子装置可基于所述一个或一个以上增益821放大且/或衰减激励信号819。
电子装置可基于LPC参数确定(910)一个或一个以上LPC系数825。举例来说,LPC参数可用18个位表示LPC系数(例如,线谱频率(LSF)、线谱对(LSP))。电子装置可基于所述18个位确定(910)LPC系数825,例如通过解码所述位。电子装置可基于经按比例缩放的激励信号819和LPC系数825产生(912)经合成的语音信号827。
图10为说明其中可实施用于估计音调滞后的系统和方法的电子装置1002的一个实例的框图。在此实例中,电子装置1002包括预处理和噪声抑制块/模块1031、模型参数估计块/模块1035、速率确定块/模块1033、第一切换块/模块1037、静音编码器1039、噪声激励(excited或excitation)线性预测(predictive或prediction)(NELP)编码器1041、瞬时编码器1043、四分之一速率原型音调周期(QPPP)编码器1045、第二切换块/模块1047和包格式化块/模块1049。
预处理和噪声抑制块/模块1031可获得或接收语音信号1006。在一个配置中,预处理和噪声抑制块/模块1031可抑制语音信号1006中的噪声且/或对语音信号1006执行其它处理,例如滤波。将所得输出信号提供到模型参数估计块/模块1035。
模型参数估计块/模块1035可经由线性预测分析来估计LPC系数,估计第一近似音调滞后且估计在第一近似音调滞后处的自相关性。速率确定块/模块1033可确定用于编码语音信号1006的译码速率。可将所述译码速率提供到解码器以供用于解码所述(经编码的)语音信号1006。
电子装置1002可确定使用哪个编码器来编码语音信号1006。应注意,有时所述语音信号1006可能并不总是含有实际语音,而是可能含有静音和/或噪声(举例来说)。在一个配置中,电子装置1002可基于模型参数估计1035确定使用哪个编码器。举例来说,如果电子装置1002在语音信号1006中检测到静音,则电子装置1002可使用第一切换块/模块1037来将(静音)语音信号引导通过静音编码器1039。第一切换块/模块1037可类似地用以基于模型参数估计1035来切换语音信号1006以用于由NELP编码器1041、瞬时编码器1043或QPPP编码器1045编码。
静音编码器1039可用一个或一个以上信息片段来编码或表示静音。举例来说,静音编码器1039可产生表示语音信号1006中的静音的长度的参数。
“噪声激励线性预测”(NELP)编码器1041可用以译码被分类为清音语音的帧。NELP译码依据信号再生而有效地操作,其中语音信号1006具有很少音调结构或不具有音调结构。更具体来说,NELP可用以编码特性上与噪声相似的语音,例如清音语音或背景噪声。NELP使用经滤波的伪随机噪声信号来模型化清音语音。可通过在解码器处产生随机信号且将适当增益应用于其来重构这些语音区段的与噪声相似的特性。NELP可将简单模型用于经译码的语音,进而实现较低位速率。
瞬时编码器1043可用以根据本文中所揭示的系统和方法来编码语音信号1006中的瞬时帧。举例来说,上文结合图1和7描述的编码器104、704可用作瞬时编码器1043。因此,举例来说,电子装置1002可在检测到瞬时帧时使用瞬时编码器1043来编码语音信号1006。
四分之一速率原型音调周期(QPPP)编码器1045可用以译码被分类为浊音语音的帧。浊音语音含有由QPPP编码器1045采用的缓慢时变周期性分量。QPPP编码器1045译码每一帧内的音调周期的子集。通过在这些原型周期之间进行内插来重构语音信号1006的剩余周期。通过采用浊音语音的周期性,QPPP编码器1045能够以感知上准确的方式再现语音信号1006。
QPPP编码器1045可使用原型音调周期波形内插法(PPPWI),所述原型音调周期波形内插法(PPPWI)可用以编码本质上为周期性的语音数据。此语音通过类似于“原型”音调周期(PPP)的不同音调周期来特征化。此PPP可为QPPP编码器1045用以编码的话音信息。解码器可使用此PPP来重构语音区段中的其它音调周期。
第二切换块/模块1047可用以将来自当前使用的编码器1039、1041、1043、1045的(经编码的)语音信号引导到包格式化块/模块1049。包格式化块/模块1049可将(经编码的)语音信号1006格式化成一个或一个以上包(例如,用于发射)。举例来说,包格式化块/模块1049可格式化瞬时帧的包。在一个配置中,可将由包格式化块/模块1049产生的所述一个或一个以上包发射到另一装置。
图11为说明其中可实施用于解码语音信号的系统和方法的电子装置1100的一个实例的框图。在此实例中,电子装置1100包括帧/位错误检测器1151、解包化块/模块1153、第一切换块/模块1155、静音解码器1157、噪声激励线性预测(NELP)解码器1159、瞬时解码器1161、四分之一速率原型音调周期(QPPP)解码器1163、第二切换块/模块1165和后滤波器1167。
电子装置1100可接收包1171。可将包1171提供到帧/位错误检测器1151和解包化块/模块1153。解包化块/模块1153可“解包”来自包1171的信息。举例来说,除有效负载数据之外,包1171还可包括标头信息、错误校正信息、路由信息和/或其它信息。解包化块/模块1153可从包1171提取有效负载数据。可将有效负载数据提供到第一切换块/模块1155。
帧/位错误检测器1151可检测是否错误地接收包1171的部分或全部。举例来说,帧/位错误检测器1151可使用错误检测码(随包1171一起发送)来确定是否错误地接收包1171的任一部分。在一些配置中,电子装置1100可基于是否错误地接收包1171的一些或全部(其可通过帧/位错误检测器1151输出来指示)控制第一切换块/模块1155和/或第二切换块/模块1165。
另外或替代地,包1171可包括指示应使用哪一类型的解码器来解码有效负载数据的信息。举例来说,编码电子装置1002可发送指示编码模式的两个位。(解码)电子装置1100可使用此指示来控制第一切换块/模块1155和第二切换块/模块1165。
电子装置1100可因此使用静音解码器1157、NELP解码器1159、瞬时解码器1161或QPPP解码器1163来解码来自包1171的有效负载数据。可接着将经解码的数据提供到第二切换块/模块1165,其可将经解码的数据路由到后滤波器1167。后滤波器1167可对经解码的数据执行某种滤波且输出经合成的语音信号1169。
在一个实例中,包1171可指示(使用编码模式指示符)静音编码器1039用以编码有效负载数据。电子装置1100可控制第一切换块/模块1155将有效负载数据路由到静音解码器1157。可接着将经解码的(静音)有效负载数据提供到第二切换块/模块1165,所述第二切换块/模块1165可将所述经解码的有效负载数据路由到后滤波器1167。在另一实例中,NELP解码器1159可用以解码由NELP编码器1041编码的语音信号(例如,清音语音信号)。
在另一实例中,包1171可指示有效负载数据是使用瞬时编码器1043来编码的(例如,使用编码模式指示符)。因此,电子装置1100可使用第一切换块/模块1155来将有效负载数据路由到瞬时解码器1161。瞬时解码器1161可解码有效负载数据,如上文所描述。在另一实例中,QPPP解码器1163可用以解码由QPPP编码器1045编码的语音信号(例如,浊音语音信号)。
可将经解码的数据提供到第二切换块/模块1165,所述第二切换块/模块1165可将所述经解码的数据路由到后滤波器1167。后滤波器1167可对所述信号执行某种滤波,所述信号可被输出为经合成的语音信号1169。经合成的语音信号1169可接着被存储、输出(例如,使用扬声器)且/或发射到另一装置(例如,蓝牙头戴耳机)。
图12为说明音调同步增益按比例缩放和LPC合成块/模块1223的一个配置的框图。图12中所说明的音调同步增益按比例缩放和LPC合成块/模块1223可为图8中所示的音调同步增益按比例缩放和LPC合成块/模块823的一个实例。如图12中所说明,音调同步增益按比例缩放和LPC合成块/模块1223可包括一个或一个以上LPC合成块/模块1277a到1277c、一个或一个以上比例因子确定块/模块1279a到1279b和/或一个或一个以上乘法器1281a到1281b。
LPC合成块/模块A1277a可获得或接收未按比例缩放的激励1219(例如,用于单个音调循环)。最初,LPC合成块/模块A1277a还可使用零存储器1275。可将LPC合成块/模块A1277a的输出提供到比例因子确定块/模块A1279a。比例因子确定块/模块A1279a可使用来自LPC合成A1277a的输出和目标音调循环能量输入1283来产生第一比例因子,可将所述第一比例因子提供到第一乘法器1281a。乘法器1281a将未按比例缩放的激励信号1219乘以第一比例因子。将(经按比例缩放的)激励信号或第一乘法器1281a输出提供到LPC合成块/模块B1277b和第二乘法器1281b。
LPC合成块/模块B1277b使用第一乘法器1281a输出以及存储器输入1285(来自先前操作)来产生经合成的输出,所述经合成的输出被提供到比例因子确定块/模块B1279b。举例来说,存储器输入1285可来自先前帧末尾处的存储器。除目标音调循环能量输入1283之外,比例因子确定块/模块B1279b还使用LPC合成块/模块B1277b输出以便产生第二比例因子,所述第二比例因子被提供到第二乘法器1281b。第二乘法器1281b将第一乘法器1281a输出(例如,经按比例缩放的激励信号)乘以第二比例因子。将所得乘积(例如,已被第二次按比例缩放的激励信号)提供到LPC合成块/模块C1277c。除存储器输入1285之外,LPC合成块/模块C1277c还使用第二乘法器1281b输出来产生经合成的语音信号1227和存储器1287以用于另外操作。
图13说明可用于电子装置1302中的各种组件。所说明的组件可位于同一物理结构内或位于单独外壳或结构中。先前所论述的电子装置102、168、1002、1100可类似于电子装置1302而配置。电子装置1302包括处理器1395。处理器1395可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1395可被称为中央处理单元(CPU)。虽然在图13的电子装置1302中仅展示单个处理器1395,但在替代配置中,可使用处理器的组合(例如,ARM与DSP)。
电子装置1302还包括与处理器1395电子通信的存储器1389。也就是说,处理器1395可从存储器1389读取信息且/或将信息写入到存储器1389。存储器1389可为能够存储电子信息的任何电子组件。存储器1389可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器包括在一起的机载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等(包括其组合)。
数据1393a和指令1391a可被存储在存储器1389中。指令1391a可包括一个或一个以上程序、例程、子例程、函数、过程等。指令1391a可包括单个计算机可读语句或许多计算机可读语句。指令1391a可为可由处理器1395执行以实施上文所描述的方法200、400、500、600、900。执行指令1391a可涉及使用存储在存储器1389中的数据1393a。图13展示被加载到处理器1395中的一些指令1391b和数据1393b(其可来自指令1391a和数据1393a)。
电子装置1302还可包括一个或一个以上通信接口1399以用于与其它电子装置通信。通信接口1399可基于有线通信技术、无线通信技术或两者。不同类型的通信接口1399的实例包括串行端口、并行端口、通用串行总线(USB)、以太网适配器、IEEE1394总线接口、小型计算机系统接口(SCSI)总线接口、红外线(IR)通信端口、蓝牙无线通信适配器等。
电子装置1302还可包括一个或一个以上输入装置1301和一个或一个以上输出装置1303。不同种类的输入装置1301的实例包括键盘、鼠标、麦克风、遥控器装置、按钮、操纵杆、轨迹球、触摸垫、光笔等。举例来说,电子装置1302可包括一个或一个以上麦克风1333用于俘获声学信号。在一个配置中,麦克风1333可为将声学信号(例如,话音、语音)转换成电信号或电子信号的换能器。不同种类的输出装置1303的实例包括扬声器、打印机等。举例来说,电子装置1302可包括一个或一个以上扬声器1335。在一个配置中,扬声器1335可为将电信号或电子信号转换成声学信号的换能器。通常可包括于电子装置1302中的一个特定类型的输出装置为显示装置1305。供本文中所揭示的配置使用的显示装置1305可利用任何合适的图像投影技术,例如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、气体等离子、电致发光等。还可提供显示器控制器1307以用于将存储于存储器1389中的数据转换成展示于显示装置1305上的文本、图形和/或移动图像(在适当时)。
电子装置1302的各种组件可通过一个或一个以上总线耦合在一起,所述一个或一个以上总线可包括电力总线、控制信号总线、状态信号总线、数据总线等。为简单起见,各种总线在图13中说明为总线系统1397。应注意,图13说明电子装置1302的仅一个可能配置。可利用各种其它架构和组件。
图14说明可包括于无线通信装置1409内的某些组件。上文所描述的电子装置102、168、1002、1100可类似于图14中展示的无线通信装置1409而配置。
无线通信装置1409包括处理器1427。处理器1427可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1427可被称为中央处理单元(CPU)。虽然在图14的无线通信装置1409中仅展示单个处理器1427,但在替代配置中,可使用处理器的组合(例如,ARM与DSP)。
无线通信装置1409还包括与处理器1427电子通信的存储器1411(即,处理器1427可从存储器1411读取信息且/或将信息写入到存储器1411)。存储器1411可为能够存储电子信息的任何电子组件。存储器1411可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器包括在一起的机载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等(包括其组合)。
数据1413和指令1415可被存储于存储器1411中。指令1415可包括一个或一个以上程序、例程、子例程、函数、过程、代码等。指令1415可包括单个计算机可读语句或许多计算机可读语句。指令1415可为可由处理器1427执行以实施上文所描述的方法200、400、500、600、900。执行指令1415可涉及使用存储于存储器1411中的数据1413。图14展示被加载到处理器1427中的一些指令1415a和数据1413a(其可来自指令1415和数据1413)。
无线通信装置1409还可包括发射器1423和接收器1425以允许信号在无线通信装置1409与远程位置(例如,另一电子装置、通信装置等)之间进行发射和接收。发射器1423和接收器1425可统称为收发器1421。天线1419可电耦合到所述收发器1421。无线通信装置1409还可包括(未图示)多个发射器、多个接收器、多个收发器和/或多个天线。
在一些配置中,无线通信装置1409可包括一个或一个以上麦克风1429用于俘获声学信号。在一个配置中,麦克风1429可为将声学信号(例如,话音、语音)转换成电信号或电子信号的换能器。另外或替代地,无线通信装置1409可包括一个或一个以上扬声器1431。在一个配置中,扬声器1431可为将电信号或电子信号转换为声学信号的换能器。
无线通信装置1409的各种组件可通过一个或一个以上总线耦合在一起,所述一个或一个以上总线可包括电力总线、控制信号总线、状态信号总线、数据总线等。为简单起见,各种总线在图14中说明为总线系统1417。
在以上描述中,有时已结合各种术语而使用参考数字。在结合参考数字使用术语的情况下,这可打算指代各图中的一者或一者以上中展示的特定元件。在使用术语而无参考数字的情况下,这可打算大体上指代不限于任何特定图的术语。
术语“确定”涵盖广泛多种动作且因此,“确定”可包括推算、计算、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找)、查明等。而且,“确定”可包括接收(例如,接收信息)、存取(例如,存取存储器中的数据)等。而且,“确定”可包括解析、选择、挑选、建立等。
除非另有明确指定,否则短语“基于”并不意指“仅基于”。换句话说,短语“基于”描述“仅基于”与“至少基于”两者。
本文中所描述的功能可作为一个或一个以上指令而存储于处理器可读或计算机可读媒体上。术语“计算机可读媒体”指代可由计算机或处理器存取的任何可用媒体。借助于实例而非限制,此媒体可包含RAM、ROM、EEPROM、快闪存储器、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。如本文中所使用,磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和光盘,其中磁盘通常以磁性方式再现数据,而光盘使用激光以光学方式再现数据。应注意,计算机可读媒体可为有形的且非暂时性的。术语“计算机程序产品”指代结合代码或指令(例如,“程序”)的计算装置或处理器,所述代码或指令可由所述计算装置或处理器执行、处理或计算。如本文中所使用,术语“代码”可指代可由计算装置或处理器执行的软件、指令、代码或数据。
还可经由传输媒体传输软件或指令。举例来说,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术而从网站、服务器或其它远程源传输,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包括于传输媒体的定义中。
本文中所揭示的方法包含用于实现所描述方法的一个或一个以上步骤或动作。所述方法步骤和/或动作可在不脱离权利要求书的范围的情况下彼此互换。换句话说,除非所描述的方法的适当操作需要步骤或动作的特定次序,否则可在不脱离权利要求书的范围的情况下修改特定步骤和/或动作的次序和/或使用。
应理解,权利要求书不限于上文所说明的精确配置和组件。在不脱离权利要求书的范围的情况下,可在本文中所描述的系统、方法和设备的布置、操作和细节方面作出各种修改、改变和变更。
Claims (42)
1.一种用于估计音调滞后的电子装置,其包含:
用于获得当前帧的构件;
用于基于所述当前帧获得残余信号的构件;
用于通过基于所述残余信号的样本的绝对值和窗口信号计算包络信号来基于所述残余信号确定峰值位置集合的构件;
用于通过基于所述当前帧确定峰值位置之间的距离以基于所述峰值位置集合获得音调滞后候选者集合的构件;以及
用于基于所述音调滞后候选者集合估计音调滞后的构件。
2.根据权利要求1所述的电子装置,其中确定峰值位置集合进一步包含:
用于基于所述包络信号与所述包络信号的时间移位版本之间的差计算第一梯度信号的构件;
用于基于所述第一梯度信号与所述第一梯度信号的时间移位版本之间的差计算第二梯度信号的构件;
用于选择其中第二梯度信号值降低到第一阈值以下的第一位置索引集合的构件;
用于通过消除其中包络值相对于包络中的最大值降低到第二阈值以下的位置索引来从所述第一位置索引集合确定第二位置索引集合的构件;以及
用于通过消除相对于相邻位置索引不满足差阈值的位置索引来从所述第二位置索引集合确定第三位置索引集合的构件。
3.根据权利要求1所述的电子装置,其中获得所述音调滞后候选者集合包含:
用于以递增次序布置所述峰值位置集合以产生有序峰值位置集合的构件;以及
用于计算所述有序峰值位置集合中的连续峰值位置对之间的距离的构件。
4.根据权利要求1所述的电子装置,其进一步包含:
用于使用所述当前帧和在所述当前帧之前的信号执行线性预测分析以获得线性预测系数集合的构件;以及
用于基于所述线性预测系数集合确定经量化线性预测系数集合的构件。
5.根据权利要求4所述的电子装置,其中获得所述残余信号进一步基于所述经量化线性预测系数集合。
6.根据权利要求1所述的电子装置,其进一步包含用于计算对应于所述音调滞后候选者集合的置信测度集合的构件。
7.根据权利要求6所述的电子装置,其中计算对应于所述音调滞后候选者集合的所述置信测度集合是基于信号包络和所述峰值位置的有序集合中的连续峰值位置对。
8.根据权利要求7所述的电子装置,其中计算所述置信测度集合包含对于所述峰值位置的所述有序集合中的每一对峰值位置:
用于基于围绕一对峰值位置中的第一峰值位置的范围选择第一信号缓冲器的构件;
用于基于围绕所述对峰值位置中的第二峰值位置的范围选择第二信号缓冲器的构件;
用于计算所述第一信号缓冲器与所述第二信号缓冲器之间的经正规化的交叉相关性的构件;以及
用于将所述经正规化的交叉相关性添加到所述置信测度集合的构件。
9.根据权利要求6所述的电子装置,其中所述音调滞后是使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计的。
10.根据权利要求6所述的电子装置,其进一步包含:
用于将基于所述当前帧的所述残余信号计算的第一近似音调滞后值添加到所述音调滞后候选者集合的构件;以及
用于将对应于所述第一近似音调滞后值的第一音调增益添加到所述置信测度集合的构件。
11.根据权利要求10所述的电子装置,其中所述第一近似音调滞后值是通过以下步骤来估计的且所述第一音调增益是通过以下步骤来估计的:
用于基于所述当前帧的所述残余信号估计自相关性值的构件;
用于在某一位置范围内搜索所述自相关性值以查找最大值的构件;
用于将所述第一近似音调滞后值设置为出现所述最大值所在的位置的构件;以及
用于将所述第一音调增益值设置为所述第一近似音调滞后值处的经正规化的自相关性的构件。
12.根据权利要求10所述的电子装置,其进一步包含:
用于将基于先前帧的残余信号计算的第二近似音调滞后值添加到所述音调滞后候选者集合的构件;以及
用于将对应于所述第二近似音调滞后值的第二音调增益添加到所述置信测度集合的构件。
13.根据权利要求12所述的电子装置,其中所述第二近似音调滞后值是通过以下步骤来估计的且所述第二音调增益是通过以下步骤来估计的:
用于基于所述先前帧的所述残余信号估计自相关性值的构件;
用于在某一位置范围内搜索所述自相关性值以查找最大值的构件;
用于将所述第二近似音调滞后值设置为出现所述最大值所在的位置的构件;以及
用于将所述第二音调增益值设置为所述第二近似音调滞后值处的经正规化的自相关性的构件。
14.根据权利要求9所述的电子装置,其中使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计所述音调滞后包含:
用于使用所述音调滞后候选者集合和所述置信测度集合计算经加权均值的构件;
用于确定所述音调滞后候选者集合中的最远离所述经加权均值的音调滞后候选者的构件;
用于从所述音调滞后候选者集合中移除最远离所述经加权均值的所述音调滞后候选者的构件;
用于从所述置信测度集合中移除对应于最远离所述经加权均值的所述音调滞后候选者的置信测度的构件;
用于确定剩余音调滞后候选者数目是否等于指定数目的构件;以及
用于在所述剩余音调滞后候选者数目等于所述指定数目的情况下,基于一个或一个以上剩余音调滞后候选者确定所述音调滞后的构件。
15.根据权利要求14所述的电子装置,其进一步包含用于在所述剩余音调滞后候选者数目不等于所述指定数目的情况下反复的构件。
16.根据权利要求14所述的电子装置,其中计算所述经加权均值是根据方程式
来实现的,其中Mw为所述经加权均值,L为音调滞后候选者数目,
{di}为所述音调滞后候选者集合,且{ci}为所述置信测度集合。
17.根据权利要求14所述的电子装置,其中确定所述音调滞后候选者集合中的最远离所述经加权均值的音调滞后候选者是通过找到dk来实现的,使得对于所有i,|Mw-dk|>|Mw-di|,其中i≠k,其中dk为最远离所述经加权均值的所述音调滞后候选者,Mw为所述经加权均值,{di}为所述音调滞后候选者集合,且i为索引编号。
18.根据权利要求1所述的电子装置,其进一步包含发射所述音调滞后的构件。
19.根据权利要求1所述的电子装置,其中所述电子装置为无线通信装置。
20.一种用于估计音调滞后的电子装置,其包含:
用于获得语音信号的构件;
用于基于所述语音信号获得音调滞后候选者集合的构件;
用于确定对应于所述音调滞后候选者集合的置信测度集合的构件;以及
用于使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计音调滞后的构件,所述迭代修剪算法基于经加权均值来移除音调滞后候选者并重新计算所述经加权均值。
21.根据权利要求20所述的电子装置,其中使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计所述音调滞后包含:
用于使用所述音调滞后候选者集合和所述置信测度集合计算所述经加权均值的构件;
用于确定所述音调滞后候选者集合中的最远离经加权均值的音调滞后候选者的构件;
用于从所述音调滞后候选者集合中移除最远离所述经加权均值的音调滞后候选者的构件;
用于从所述置信测度集合中移除对应于最远离所述经加权均值的所述音调滞后候选者的置信测度的构件;
用于确定剩余音调滞后候选者数目是否等于指定数目的构件;以及
用于在所述剩余音调滞后候选者数目等于所述指定数目的情况下,基于一个或一个以上剩余音调滞后候选者确定所述音调滞后的构件。
22.一种用于在电子装置上估计音调滞后的方法,其包含:
获得当前帧;
基于所述当前帧获得残余信号;
通过基于所述残余信号的样本的绝对值和窗口信号计算包络信号来基于所述残余信号确定峰值位置集合;
通过基于所述当前帧确定峰值位置之间的距离以基于所述峰值位置集合获得音调滞后候选者集合;以及
基于所述音调滞后候选者集合估计音调滞后。
23.根据权利要求22所述的方法,其中确定峰值位置集合进一步包含:
基于所述包络信号与所述包络信号的时间移位版本之间的差计算第一梯度信号;
基于所述第一梯度信号与所述第一梯度信号的时间移位版本之间的差计算第二梯度信号;
选择其中第二梯度信号值降低到第一阈值以下的第一位置索引集合;
通过消除其中包络值相对于包络中的最大值降低到第二阈值以下的位置索引来从所述第一位置索引集合确定第二位置索引集合;以及
通过消除相对于相邻位置索引不满足差阈值的位置索引来从所述第二位置索引集合确定第三位置索引集合。
24.根据权利要求22所述的方法,其中获得所述音调滞后候选者集合包含:
以递增次序布置所述峰值位置集合以产生有序峰值位置集合;以及
计算所述有序峰值位置集合中的连续峰值位置对之间的距离。
25.根据权利要求22所述的方法,其进一步包含:
使用所述当前帧和在所述当前帧之前的信号执行线性预测分析以获得线性预测系数集合;以及
基于所述线性预测系数集合确定经量化线性预测系数集合。
26.根据权利要求25所述的方法,其中获得所述残余信号进一步基于所述经量化线性预测系数集合。
27.根据权利要求22所述的方法,其进一步包含计算对应于所述音调滞后候选者集合的置信测度集合。
28.根据权利要求27所述的方法,其中计算对应于所述音调滞后候选者集合的所述置信测度集合是基于信号包络和所述峰值位置的有序集合中的连续峰值位置对。
29.根据权利要求28所述的方法,其中计算所述置信测度集合包含对于所述峰值位置的所述有序集合中的每一对峰值位置:
基于围绕一对峰值位置中的第一峰值位置的范围选择第一信号缓冲器;
基于围绕所述对峰值位置中的第二峰值位置的范围选择第二信号缓冲器;
计算所述第一信号缓冲器与所述第二信号缓冲器之间的经正规化的交叉相关性;以及
将所述经正规化的交叉相关性添加到所述置信测度集合。
30.根据权利要求27所述的方法,其中使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合来估计所述音调滞后。
31.根据权利要求27所述的方法,其进一步包含:
将基于所述当前帧的所述残余信号计算的第一近似音调滞后值添加到所述音调滞后候选者集合;以及
将对应于所述第一近似音调滞后值的第一音调增益添加到所述置信测度集合。
32.根据权利要求31所述的方法,其中通过以下步骤来估计所述第一近似音调滞后值
且估计所述第一音调增益:
基于所述当前帧的所述残余信号估计自相关性值;
在某一位置范围内搜索所述自相关性值以查找最大值;
将所述第一近似音调滞后值设置为出现所述最大值所在的位置;以及
将所述第一音调增益值设置为所述第一近似音调滞后值处的经正规化的自相关性。
33.根据权利要求31所述的方法,其进一步包含:
将基于先前帧的残余信号计算的第二近似音调滞后值添加到所述音调滞后候选者集合;以及
将对应于所述第二近似音调滞后值的第二音调增益添加到所述置信测度集合。
34.根据权利要求33所述的方法,其中通过以下步骤来估计所述第二近似音调滞后值且估计所述第二音调增益:
基于所述先前帧的所述残余信号估计自相关性值;
在某一位置范围内搜索所述自相关性值以查找最大值;
将所述第二近似音调滞后值设置为出现所述最大值所在的位置;以及
将所述音调增益值设置为所述第二近似音调滞后值处的经正规化的自相关性。
35.根据权利要求30所述的方法,其中使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计所述音调滞后包含:
使用所述音调滞后候选者集合和所述置信测度集合计算经加权均值;
确定所述音调滞后候选者集合中的最远离所述经加权均值的音调滞后候选者;
从所述音调滞后候选者集合中移除最远离所述经加权均值的所述音调滞后候选者;
从所述置信测度集合中移除对应于最远离所述经加权均值的所述音调滞后候选者的置信测度;
确定剩余音调滞后候选者数目是否等于指定数目;以及
在所述剩余音调滞后候选者数目等于所述指定数目的情况下,基于一个或一个以上剩余音调滞后候选者确定所述音调滞后。
36.根据权利要求35所述的方法,其进一步包含在所述剩余音调滞后候选者数目不等于所述指定数目的情况下反复。
37.根据权利要求35所述的方法,其中根据方程式来实现计算所述经加权均值,其中Mw为所述经加权均值,L为音调滞后候选者数目,{di}为所述音调滞后候选者集合,且{ci}为所述置信测度集合。
38.根据权利要求35所述的方法,其中通过找到dk来实现确定所述音调滞后候选者集合中的最远离所述经加权均值的音调滞后候选者,使得对于所有i,|Mw-dk|>|Mw-di|,其中i≠k,其中dk为最远离所述经加权均值的所述音调滞后候选者,Mw为所述经加权均值,{di}为所述音调滞后候选者集合,且i为索引编号。
39.根据权利要求22所述的方法,其进一步包含发射所述音调滞后。
40.根据权利要求22所述的方法,其中所述电子装置为无线通信装置。
41.一种用于在电子装置上估计音调滞后的方法,其包含:
获得语音信号;
基于所述语音信号获得音调滞后候选者集合;
确定对应于所述音调滞后候选者集合的置信测度集合;以及
使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计音调滞后,所述迭代修剪算法基于经加权均值来移除音调滞后候选者并重新计算所述经加权均值。
42.根据权利要求41所述的方法,其中使用迭代修剪算法基于所述音调滞后候选者集合和所述置信测度集合估计所述音调滞后包含:
使用所述音调滞后候选者集合和所述置信测度集合计算经加权均值;
确定所述音调滞后候选者集合中的最远离经加权均值的音调滞后候选者;
从所述音调滞后候选者集合中移除最远离所述经加权均值的音调滞后候选者;
从所述置信测度集合中移除对应于最远离所述经加权均值的所述音调滞后候选者的置信测度;
确定剩余音调滞后候选者数目是否等于指定数目;以及
在所述剩余音调滞后候选者数目等于所述指定数目的情况下,基于一个或一个以上剩余音调滞后候选者确定所述音调滞后。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US38369210P | 2010-09-16 | 2010-09-16 | |
US61/383,692 | 2010-09-16 | ||
US13/228,136 US9082416B2 (en) | 2010-09-16 | 2011-09-08 | Estimating a pitch lag |
US13/228,136 | 2011-09-08 | ||
PCT/US2011/051046 WO2012036989A1 (en) | 2010-09-16 | 2011-09-09 | Estimating a pitch lag |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103109321A CN103109321A (zh) | 2013-05-15 |
CN103109321B true CN103109321B (zh) | 2015-06-03 |
Family
ID=44736041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180044585.1A Active CN103109321B (zh) | 2010-09-16 | 2011-09-09 | 估计音调滞后 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9082416B2 (zh) |
EP (1) | EP2617029B1 (zh) |
JP (1) | JP5792311B2 (zh) |
CN (1) | CN103109321B (zh) |
WO (1) | WO2012036989A1 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112015031824B1 (pt) * | 2013-06-21 | 2021-12-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparelho e método para uma ocultação melhorada do livro do código adaptativo na ocultação tipo acelp utilizando uma estimativa melhorada de atraso de pitch |
CN105453173B (zh) | 2013-06-21 | 2019-08-06 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
US9484044B1 (en) | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) * | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
KR101541606B1 (ko) * | 2013-11-21 | 2015-08-04 | 연세대학교 산학협력단 | 초음파 신호의 포락선 검출 방법 및 그 장치 |
ES2703565T3 (es) * | 2014-01-24 | 2019-03-11 | Nippon Telegraph & Telephone | Aparato, método, programa y soporte de registro de análisis predictivo lineal |
FR3017441B1 (fr) | 2014-02-12 | 2016-07-29 | Air Liquide | Reservoir composite et son procede de fabrication |
EP2980799A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
US9640157B1 (en) * | 2015-12-28 | 2017-05-02 | Berggram Development Oy | Latency enhanced note recognition method |
US9711121B1 (en) * | 2015-12-28 | 2017-07-18 | Berggram Development Oy | Latency enhanced note recognition method in gaming |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
US10650837B2 (en) | 2017-08-29 | 2020-05-12 | Microsoft Technology Licensing, Llc | Early transmission in packetized speech |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
KR102664768B1 (ko) * | 2019-01-13 | 2024-05-17 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 고해상도 오디오 코딩 |
BR112021013726A2 (pt) * | 2019-01-13 | 2021-09-21 | Huawei Technologies Co., Ltd. | Método implementado por computador para realizar quantização residual, dispositivo eletrônico e meio legível por computador não transitório |
US11756530B2 (en) * | 2019-10-19 | 2023-09-12 | Google Llc | Self-supervised pitch estimation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
CN1441950A (zh) * | 2000-07-14 | 2003-09-10 | 康奈克森特系统公司 | 处理丢失帧的语音通信系统及方法 |
GB2400003A (en) * | 2003-03-22 | 2004-09-29 | Motorola Inc | Pitch estimation within a speech signal |
EP1770687A1 (en) * | 1999-08-31 | 2007-04-04 | Accenture LLP | Detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
Family Cites Families (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
JPS5648688A (en) * | 1979-09-28 | 1981-05-01 | Hitachi Ltd | Sound analyser |
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
US5105464A (en) * | 1989-05-18 | 1992-04-14 | General Electric Company | Means for improving the speech quality in multi-pulse excited linear predictive coding |
CA2483296C (en) * | 1991-06-11 | 2008-01-22 | Qualcomm Incorporated | Variable rate vocoder |
EP0533257B1 (en) * | 1991-09-20 | 1995-06-28 | Koninklijke Philips Electronics N.V. | Human speech processing apparatus for detecting instants of glottal closure |
US5353372A (en) * | 1992-01-27 | 1994-10-04 | The Board Of Trustees Of The Leland Stanford Junior University | Accurate pitch measurement and tracking system and method |
US5781880A (en) | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JP4063911B2 (ja) | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
US5774836A (en) * | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
CN1163870C (zh) | 1996-08-02 | 2004-08-25 | 松下电器产业株式会社 | 声音编码装置和方法,声音译码装置,以及声音译码方法 |
US6014622A (en) | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
JPH10105195A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
US5812967A (en) * | 1996-09-30 | 1998-09-22 | Apple Computer, Inc. | Recursive pitch predictor employing an adaptively determined search window |
US5946649A (en) * | 1997-04-16 | 1999-08-31 | Technology Research Association Of Medical Welfare Apparatus | Esophageal speech injection noise detection and rejection |
US5946650A (en) * | 1997-06-19 | 1999-08-31 | Tritech Microelectronics, Ltd. | Efficient pitch estimation method |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
US6351730B2 (en) * | 1998-03-30 | 2002-02-26 | Lucent Technologies Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6226606B1 (en) * | 1998-11-24 | 2001-05-01 | Microsoft Corporation | Method and apparatus for pitch tracking |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US7016850B1 (en) * | 2000-01-26 | 2006-03-21 | At&T Corp. | Method and apparatus for reducing access delay in discontinuous transmission packet telephony systems |
AU2001258298A1 (en) * | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in speech signal |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
US6763339B2 (en) * | 2000-06-26 | 2004-07-13 | The Regents Of The University Of California | Biologically-based signal processing system applied to noise removal for signal extraction |
US7133823B2 (en) * | 2000-09-15 | 2006-11-07 | Mindspeed Technologies, Inc. | System for an adaptive excitation pattern for speech coding |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
AU2001270365A1 (en) * | 2001-06-11 | 2002-12-23 | Ivl Technologies Ltd. | Pitch candidate selection method for multi-channel pitch detectors |
US6879955B2 (en) * | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
JP2004109803A (ja) | 2002-09-20 | 2004-04-08 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
SG120121A1 (en) * | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
KR100552693B1 (ko) * | 2003-10-25 | 2006-02-20 | 삼성전자주식회사 | 피치검출방법 및 장치 |
EP1605437B1 (en) * | 2004-06-04 | 2007-08-29 | Honda Research Institute Europe GmbH | Determination of the common origin of two harmonic components |
JP4654621B2 (ja) * | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US7933767B2 (en) * | 2004-12-27 | 2011-04-26 | Nokia Corporation | Systems and methods for determining pitch lag for a current frame of information |
EP1997104B1 (en) * | 2006-03-20 | 2010-07-21 | Mindspeed Technologies, Inc. | Open-loop pitch track smoothing |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8812306B2 (en) | 2006-07-12 | 2014-08-19 | Panasonic Intellectual Property Corporation Of America | Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame |
US20100010810A1 (en) * | 2006-12-13 | 2010-01-14 | Panasonic Corporation | Post filter and filtering method |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
EP2128855A1 (en) * | 2007-03-02 | 2009-12-02 | Panasonic Corporation | Voice encoding device and voice encoding method |
EP1973101B1 (en) * | 2007-03-23 | 2010-02-24 | Honda Research Institute Europe GmbH | Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency |
EP2153436B1 (en) * | 2007-05-14 | 2014-07-09 | Freescale Semiconductor, Inc. | Generating a frame of audio data |
WO2008155919A1 (ja) * | 2007-06-21 | 2008-12-24 | Panasonic Corporation | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
JP5395066B2 (ja) * | 2007-06-22 | 2014-01-22 | ヴォイスエイジ・コーポレーション | 音声区間検出および音声信号分類ための方法および装置 |
CN100550712C (zh) * | 2007-11-05 | 2009-10-14 | 华为技术有限公司 | 一种信号处理方法和处理装置 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
WO2010031109A1 (en) * | 2008-09-19 | 2010-03-25 | Newsouth Innovations Pty Limited | Method of analysing an audio signal |
US8214201B2 (en) | 2008-11-19 | 2012-07-03 | Cambridge Silicon Radio Limited | Pitch range refinement |
GB2466673B (en) * | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
US8185384B2 (en) * | 2009-04-21 | 2012-05-22 | Cambridge Silicon Radio Limited | Signal pitch period estimation |
US8620672B2 (en) * | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
WO2011130325A1 (en) * | 2010-04-12 | 2011-10-20 | Smule, Inc. | Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
US8645128B1 (en) * | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
-
2011
- 2011-09-08 US US13/228,136 patent/US9082416B2/en active Active
- 2011-09-09 WO PCT/US2011/051046 patent/WO2012036989A1/en active Application Filing
- 2011-09-09 JP JP2013529209A patent/JP5792311B2/ja active Active
- 2011-09-09 CN CN201180044585.1A patent/CN103109321B/zh active Active
- 2011-09-09 EP EP11764380.9A patent/EP2617029B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
EP1770687A1 (en) * | 1999-08-31 | 2007-04-04 | Accenture LLP | Detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
CN1441950A (zh) * | 2000-07-14 | 2003-09-10 | 康奈克森特系统公司 | 处理丢失帧的语音通信系统及方法 |
GB2400003A (en) * | 2003-03-22 | 2004-09-29 | Motorola Inc | Pitch estimation within a speech signal |
Also Published As
Publication number | Publication date |
---|---|
EP2617029B1 (en) | 2014-10-15 |
WO2012036989A1 (en) | 2012-03-22 |
US9082416B2 (en) | 2015-07-14 |
JP5792311B2 (ja) | 2015-10-07 |
CN103109321A (zh) | 2013-05-15 |
EP2617029A1 (en) | 2013-07-24 |
JP2013537324A (ja) | 2013-09-30 |
US20120072209A1 (en) | 2012-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103109321B (zh) | 估计音调滞后 | |
CN103098127B (zh) | 译码及解码瞬时帧 | |
JP4991854B2 (ja) | オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法 | |
KR101699138B1 (ko) | 리던던트 프레임 코딩 및 디코딩을 위한 디바이스들 | |
CN103299365B (zh) | 用于自适应地编码和解码带水印信号的装置 | |
US20120140935A1 (en) | Audio Fingerprint Differences for End-to-End Quality of Experience Measurement | |
RU2668111C2 (ru) | Классификация и кодирование аудиосигналов | |
CN103299364B (zh) | 用于编码和解码带水印信号的装置 | |
CN103109319B (zh) | 确定音调循环能量及按比例缩放激励信号 | |
CN105745703A (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
JP2024102106A (ja) | ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置 | |
UA114233C2 (uk) | Системи та способи для визначення набору коефіцієнтів інтерполяції | |
KR20220018557A (ko) | 스테레오 코딩 방법 및 디바이스, 및 스테레오 디코딩 방법 및 디바이스 | |
KR102592670B1 (ko) | 스테레오 오디오 신호에 대한 인코딩 및 디코딩 방법, 인코딩 디바이스, 및 디코딩 디바이스 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |