CN102016530B - 一种基音周期检测方法和装置 - Google Patents
一种基音周期检测方法和装置 Download PDFInfo
- Publication number
- CN102016530B CN102016530B CN2009800001124A CN200980000112A CN102016530B CN 102016530 B CN102016530 B CN 102016530B CN 2009800001124 A CN2009800001124 A CN 2009800001124A CN 200980000112 A CN200980000112 A CN 200980000112A CN 102016530 B CN102016530 B CN 102016530B
- Authority
- CN
- China
- Prior art keywords
- pitch period
- signal
- candidate
- pitch
- primary election
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measuring Frequencies, Analyzing Spectra (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明实施例提供一种基音周期检测方法和装置,所述方法包括:对输入信号进行信号域基音检测,获得候选基音周期;对输入信号进行线性预测,获得线性残差信号;设置包含所述候选基音周期的候选基音周期区间;在所述候选基音周期区间内对所述线性残差信号进行搜索,获得选定基音周期。通过本实施例的方法和装置,克服了在单一域做基音周期检测的缺点,根据信号在信号域和残差域的不同特点,分别在两个域中依次做不同精度基音周期检测,既降低了算法复杂度,又保证了基音周期检测的准确性。
Description
技术领域
本发明涉及语音与音频信号的编码,尤其涉及一种基音周期检测方法和装置。
背景技术
为节省语音与音频信号传输和存储的带宽,相应的语音与音频编码技术得到了广泛的应用,目前主要分为有损编码和无损编码,有损编码的重建信号与原始信号并不能保持完全一致,但可以根据声源特点及人的感知特点最大程度上减少信号的冗余信息,传很少的编码信息,重建较高的语音与音频质量;而对于无损编码,则必须保证重建信号与原始信号完全一致,这样就可以使得最后的解码质量没有任何损伤。一般来讲,有损编码压缩率比较高,但重建语音质量没有保证,无损编码由于可以无失真的重建信号,可以保证语音质量,但压缩率较低,大约50%左右。
无论在有损编码或无损编码中,基音周期都是极为重要的参数之一,基音周期检测的准确性直接影响了最后编码的性能,现有技术中,基音周期的检测方法有很多,主要的方法为:首先对信号映射到某个域,进行一些搜索预处理,然后进行开环粗搜索,再进行闭环细搜索,最后进行基音平滑等后处理,但这些操作基本上都在同一个域进行操作,如时域、频域、倒谱域、信号域、残差域等等。
发明人在实现本发明的过程中发现,在实际算法中,许多操作都必须在不同的域进行,而基音周期的检测算法在不同的域也呈现不同的性能和复杂度,例如在时域中检测基音复杂度低,而在频域中检测基音精度更高,在信号域检测周期性更强,用简单的方法更容易检测,而在残差域则周期性变弱,更难检测。
发明内容
本发明实施例提供一种基音周期检测方法和装置,以解决在单一域做基音周期检测的缺点。
为了达到上述目的,本发明实施例提供了如下技术方案:
一种基音周期检测方法,所述方法包括:对输入信号进行信号域基音检测,获得候选基音周期;对输入信号进行线性预测,获得线性残差信号;设置包含所述候选基音周期的候选基音周期区间;在所述候选基音周期区间内对所述线性残差信号进行搜索,获得选定基音周期。
一种基音周期检测装置,所述装置包括:信号域基音检测单元,用于对输入信号进行信号域基音检测,获得候选基音周期;线性预测单元,用于对输入信号进行线性预测,获得线性残差信号;设置单元,用于设置包含所述候选基音周期的候选基音周期区间;残差域精细检测单元,用于在所述候选基音周期区间范围内对所述线性残差信号进行搜索,获得选定基音周期。
通过本实施例的方法和装置,克服了在单一域做基音周期检测的缺点,根据信号在信号域和残差域的不同特点,分别在两个域中依次做不同精度基音周期检测,既降低了算法复杂度,又保证了基音周期检测的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本实施例的方法流程图
图2为本实施例的另一方法流程图;
图3为本实施例的基音周期搜索示意图;
图4为本实施例的装置组成框图;
图5为本实施例的另一装置组成框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
实施例一
本发明实施例提供一种基音周期检测方法,以下结合附图对本实施例进行详细说明。
图1为本发明实施例的方法流程图,请参照图1,本实施例的基音周期检测方法主要包括:
101:对输入信号进行信号域基音检测,获得候选基音周期;
在本实施例中,信号域基音检测一般可以先经过预处理,例如低通滤波、中值削波、下采样等操作,然后对预处理后的信号进行基音搜索,因此,本实施例的方法在步骤101之前还可以包括对输入信号进行预处理,获得预处理信号的步骤,该步骤可以通过对输入信号进行低通滤波、下采样,获得下采样信号来实现,此时,下采样信号作为预处理后的信号提供给本实施例的方法,对下采样信号进行信号域基音检测。
在本实施例中,对预处理后的信号进行基音周期搜索,可以利用很多信号域基音周期搜索方法,为了保证基音周期的准确和连续,一般搜索出的基音周期还要经过基音周期平滑、倍频检测等后处理算法,最后检测出的信号域基音周期作为在残差域的进行精细检测的候选基音周期。
102:对输入信号进行线性预测,获得线性残差信号;
在本实施例中,线性残差信号的获得可以通过对输入信号进行加窗后进行LP预测(Linear Prediction,线性预测)来实现。
103:设置包含所述候选基音周期的候选基音周期区间;
因为许多编码器需要将信号转到线性残差域进行处理,编码器需要根据线性残差信号得到精准的基音周期,所以必须在候选基音周期的附近对残差信号进行精细搜索来满足编码器的需要。
候选基音周期区间的最小值为候选基音周期与第一阈值的差,候选基音周期区间的最大值为候选基音周期与第二阈值的和,其中第一阈值和第二阈值可以通过综合考虑算法性能和复杂度来确定,第一阈值和所述第二阈值可以相同,也可以不同。
104:在所述候选基音周期区间范围内对所述线性残差信号进行精细搜索,获得选定基音周期。
在本实施例中,可以采用自相关函数法对线性残差信号进行精细搜索,然后将所述候选基音周期区间范围内,使所述自相关函数最大的基音周期作为选定基音周期。也可以采用长时预测残差能量比较法对线性残差信号进行精细搜索,然后将所述候选基音周期区间范围内,从长时预测残差能量中选择最小值,并记录下所述最小值对应的基音周期作为选定基音周期T’。
根据本实施例,经过精细搜索得到的基音周期还要根据实际情况做一个基音周期平滑、倍频检测等基音后处理,最后输出残差域精细检测的最佳基音作为选定基音周期。
通过本实施例的方法,克服了在单一域做基音周期检测的缺点,根据信号在信号域和残差域的不同特点,分别在两个域中依次做不同精度基音周期检测,既降低了算法复杂度,又保证了基音周期检测的准确性。
实施例二
本发明实施例还提供一种基音检测方法,以下结合附图对本实施例的方法进行详细说明。
图2为本实施例的方法流程图,在本实施例的方法中,以帧长L为160样点为例,请参照图2,本实施例的方法主要包括:
201:对输入信号s(n)进行低通滤波,得到低通滤波信号y(n):
202:对低通滤波信号y(n)进行下采样,得到下采样信号y2(n):
203:对下采样信号y2(n)进行基音周期搜索。
由于一般基音周期范围大约在2ms-20ms之间,考虑到编码效率与性能的折中,本实施例将基音周期的范围限定在[20,83](8kHz采样)内,可以用6比特编码,同时也考虑到对于160点的帧长,基音周期不能够太大,太大会导致一帧信号中只有一少部分样点参与LTP(Long Term Prediction,长时预测)的计算,会降低LTP的性能。
本实施例以帧长L=160点为例,在下采样信号域,其基音周期的范围就变为:[10,41],PMIN=10,PMAX=41,如图3所示。
在本实施例,该步骤203可以包括:
2031:考虑到基音周期的范围,在下采样信号域,本实施例在下采样信号的后半帧信号中找到幅度最大的脉冲位置,记为p0:
2032:在p0周围加一个目标窗,窗的大小为:[smin,smax],其中:
2033:根据所述目标窗及目标窗的滑动窗口中的预处理信号,获得初选基音周期;
在本实施例中,获得初选基音周期的方式包括但不限于下述三种:
第一种:
计算长时预测LTP的残差信号xk(i)的能量E(k),将能量最小对应的基音周期作为初选基音周期:
xk(i)=y2(i)-g·y2(i-k),i=s min,...,s max,其中,g为长时预测增益因子,k∈[10,41],得到:
P={E(P)<E(k),k∈[10,41],k≠P}。
第二种:
对下采样信号的幅度最大脉冲周围的信号进行匹配,计算如下相关函数获得相关系数,将相关系数最大对应的基音周期作为初选基音周期,如下:
相关函数可以为k∈[10,41],计算出corr[.]最大对应的k值作为初选基音周期P。
第三种:
计算长时预测后的残差信号xk(i)的绝对值的和,将绝对值和最小对应的基音周期作为初选基音周期,如下:
xk(i)=y2(i)-g·y2(i-k),i=s min,...,s max,g为长时预测增益因子,k∈[10,41]。
P={E(P)>E(k),k∈[10,41],k≠P}.
2034:为了避免将初选基音周期的倍频误认为初选基音周期,本实施例还可以在信号域对初选基音周期和两倍于初选基音周期做简单的比较,方法如下:
在上述P和2P两个基音周期中找出使nor_cor[.]最大的p作为候选基音周期,本实施例可以设为T。
204:输入信号经过加窗,LP预测得到LP残差信号e(n);
205:在[T-Td1,T+Td2]范围内对LP残差信号e(n)进行基音周期精细搜索,获得选定基音周期。
在本实施例中,可以采用自相关函数法来进行基因周期的精细搜索,考虑到编码效率与性能的折中,自相关函数可以采用如下三种具体表达式中的一种:
(1) k∈[T-Td1,T+Td2];
(2) k∈[T-Td1,T+Td2];
(3) k∈[T-Td1,T+Td2]。
在[T-Td1,T+Td2]范围内找出使nor_cor[.]最大的k值作为最佳基音周期T’,也即选定基音周期,其中第一阈值Td1和第二阈值Td2的值可以通过综合考虑算法性能和复杂度来确定,如可令Td1=Td2=2。
在本实施例中,也可以采用长时预测残差能量比较法:
uk(n)=e(n)-g′·e(n-k),i=k,...,L-1,uk(n)为长时预测残差信号,g`为长时预测增益因子,k∈[T-Td1,T+Td2]。
从E(k)中选择最小值并记录下对应的基音周期作为选定基音周期T’。
本实施例根据信号在各种域中的不同特点和实际算法的要求,先在信号域中做基音粗搜索,然后在残差域中根据粗搜索的基音再做精细搜索。通过本实施例的方法,克服了在单一域做基音周期检测的缺点,根据信号在信号域和残差域的不同特点,分别在两个域中依次做不同精度基音周期检测,既降低了算法复杂度,又保证了基音周期检测的准确性。
实施例三
本发明实施例还提供一种基音检测装置,以下结合附图对本实施例的装置进行详细说明。
图4为本实施例的装置组成框图,请参照图4,本实施例的基音检测装置主要包括:
信号域基音周期检测单元41,用于对输入信号进行信号域基音检测,获得候选基音周期;
线性预测单元42,用于对输入信号进行线性预测,获得线性残差信号;
设置单元43,用于设置包含所述候选基音周期的候选基音周期区间;
残差域精细检测单元44,用于在所述候选基音周期区间范围内对所述线性残差信号进行精细搜索,获得选定基音周期。
本实施例的装置各组成部分分别用于实现实施例一的方法的各步骤,由于在实施例一的方法中,已对各步骤进行详细说明,在此不再赘述。
通过本实施例的装置,克服了在单一域做基音周期检测的缺点,根据信号在信号域和残差域的不同特点,分别在两个域中依次做不同精度基音周期检测,既降低了算法复杂度,又保证了基音周期检测的准确性。
实施例四
本发明实施例还提供一种基音检测装置,以下结合附图对本实施例的装置进行详细说明。
图5为本实施例的另一装置组成框图,在本实施例中,所述基音检测装置除包含信号域基音检测单元51、线性预测单元52、设置单元53以及残差域精细检测单元54以外,还可以包括:
预处理单元55,用于对输入信号进行预处理,获得预处理信号提供给信号域基音检测单元51。
其中,该预处理单元55可以包括:
低通滤波模块551,用于对输入信号进行低通滤波;
下采样模块552,用于对经过低通滤波模块551低通滤波后的输入信号进行下采样,获得下采样信号。
在本实施例中,信号域基音检测单元51可以包括:
第一加窗模块511,用于在所述预处理信号的后半帧信号中幅度最大的脉冲位置周围加目标窗;
初选基音周期获取模块512,用于根据所述目标窗及其滑动窗口中的预处理信号,获得初选基音周期;
候选基音周期获取模块513,用于对所述初选基音周期进行倍频检测,得到候选基音周期。
其中,初选基音周期获取模块512可以用于根据所述目标窗,计算长时预测的残差信号的能量,将能量最小对应的基音周期作为初选基音周期;也可以用于根据所述目标窗,对所述预处理信号的幅度最大脉冲周围的信号进行匹配,计算相关信号,将相关信号最大对应的基音周期作为初选基音周期;还可以用于根据所述目标窗,计算长时预测后的残差信号的绝对值和,将绝对值和最小对应的基音周期作为初选基音周期。
在本实施例中,线性预测单元52可以包括:
第二加窗模块521,用于对输入信号加窗;
线性预测模块522,用于对经过加窗模块521加窗的输入信号进行线性预测,获得线性残差信号。
在本实施例中,残差域精细检测单元54可以包括:
精细搜索模块541,用于采用自相关函数法或长时预测残差能量比较法对线性残差信号进行精细搜索;
选定基音周期获取模块542,用于将所述候选基音周期区间范围内,使所述自相关函数最大或使所述长时预测残差能量最小的基音周期作为选定基音周期。
本实施例的装置各组成部分分别用于实现实施例二的方法的各步骤,由于在实施例二的方法中,已对各步骤进行详细说明,在此不再赘述。
通过本实施例的装置,克服了在单一域做基音周期检测的缺点,根据信号在信号域和残差域的不同特点,分别在两个域中依次做不同精度基音周期检测,既降低了算法复杂度,又保证了基音周期检测的准确性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (19)
1.一种基音周期检测方法,其特征在于,所述方法包括:
对输入信号进行信号域基音检测,获得候选基音周期;
对输入信号进行线性预测,获得线性残差信号;
设置包含所述候选基音周期的候选基音周期区间;
在所述候选基音周期区间内对所述线性残差信号进行搜索,获得选定基音周期。
2.根据权利要求1所述的方法,其特征在于,所述对输入信号进行信号域基音检测,获得候选基音周期之前包括:
对输入信号进行预处理,获得预处理信号。
3.根据权利要求2所述的方法,其特征在于,所述对输入信号进行信号域基音检测,获得候选基音周期包括:
在所述预处理信号的后半帧信号中幅度最大的脉冲位置周围加目标窗;
根据所述目标窗及其滑动窗口中的预处理信号,获得初选基音周期;
对所述初选基音周期进行倍频检测,得到候选基音周期。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标窗及其滑动窗口中的预处理信号,获得初选基音周期包括:
根据所述目标窗及其滑动窗口中的预处理信号,计算长时预测的残差信号的能量,将能量最小对应的基音周期作为初选基音周期。
5.根据权利要求3所述的方法,其特征在于,所述根据所述目标窗及其滑动窗口中的预处理信号,获得初选基音周期包括:
根据所述目标窗及其滑动窗口中的预处理信号,对所述预处理信号的幅度最大脉冲周围的信号进行匹配,计算相关函数,将相关系数最大对应的基音周期作为初选基音周期。
6.根据权利要求3所述的方法,其特征在于,所述根据所述目标窗及其滑动窗口中的预处理信号,获得初选基音周期包括:
根据所述目标窗及其滑动窗口中的预处理信号,计算长时预测后的残差信号的绝对值和,将绝对值和最小对应的基音周期作为初选基音周期。
7.根据权利要求1所述的方法,其特征在于:
所述候选基音周期区间的最小值为所述候选基音周期与第一阈值的差,所述候选基音周期区间的最大值为所述候选基音周期与第二阈值的和,所述第一阈值和所述第二阈值相同或者不同。
8.根据权利要求7所述的方法,其特征在于,在所述候选基音周期区间范围内对所述线性残差信号进行搜索,获得选定基音周期包括:
采用自相关函数法对线性残差信号进行搜索;
将所述候选基音周期区间内,使所述自相关函数最大的基音周期作为选定基音周期。
10.根据权利要求7所述的方法,其特征在于,在所述候选基音周期区间内对所述线性残差信号进行搜索,获得选定基音周期包括:
采用长时预测残差能量比较法对线性残差信号进行搜索;
将所述候选基音周期区间范围内,使所述长时预测残差能量最小的基音周期作为选定基音周期。
11.一种基音周期检测装置,其特征在于,所述装置包括:
信号域基音检测单元,用于对输入信号进行信号域基音检测,获得候选基音周期;
线性预测单元,用于对输入信号进行线性预测,获得线性残差信号;
设置单元,用于设置包含所述候选基音周期的候选基音周期区间;
残差域精细检测单元,用于在所述候选基音周期区间内对所述线性残差信号进行搜索,获得选定基音周期。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
预处理单元,用于对输入信号进行预处理,获得预处理信号。
13.根据权利要求12所述的装置,其特征在于,所述预处理单元包括:
低通滤波模块,用于对输入信号进行低通滤波;
下采样模块,用于对经过低通滤波后的输入信号进行下采样,获得下采样信号。
14.根据权利要求11所述的装置,其特征在于,所述信号域基音检测单元包括:
加窗模块,用于在所述预处理信号的后半帧信号中幅度最大的脉冲位置周围加目标窗;
初选基音周期获取模块,用于根据所述目标窗及其滑动窗口中的预处理信号,获得初选基音周期;
候选基音周期获取模块,用于对所述初选基音周期进行倍频检测,得到候选基音周期。
15.根据权利要求14所述的装置,其特征在于,所述初选基音周期获取模块用于根据所述目标窗及其滑动窗口中的预处理信号,计算长时预测 的残差信号的能量,将能量最小对应的基音周期作为初选基音周期。
16.根据权利要求14所述的装置,其特征在于,所述初选基音周期获取模块用于根据所述目标窗及其滑动窗口中的预处理信号,对所述预处理信号的幅度最大脉冲周围的信号进行匹配,计算相关函数,将相关系数最大对应的基音周期作为初选基音周期。
17.根据权利要求14所述的装置,其特征在于,所述初选基音周期获取模块用于根据所述目标窗及其滑动窗口中的预处理信号,计算长时预测后的残差信号的绝对值和,将绝对值和最小对应的基音周期作为初选基音周期。
18.根据权利要求11所述的装置,其特征在于,所述线性预测单元包括:
加窗模块,用于对输入信号加窗;
线性预测模块,用于对经过加窗模块加窗的输入信号进行线性预测,获得线性残差信号。
19.根据权利要求11所述的装置,其特征在于,所述残差域精细检测单元包括:
精细搜索模块,用于采用自相关函数法或长时预测残差能量比较法对线性残差信号进行搜索;
选定基音周期获取模块,用于将所述候选基音周期区间内,使所述自相关函数最大或使所述长时预测残差能量最小的基音周期作为选定基音周期。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2009/070423 WO2010091554A1 (zh) | 2009-02-13 | 2009-02-13 | 一种基音周期检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102016530A CN102016530A (zh) | 2011-04-13 |
CN102016530B true CN102016530B (zh) | 2012-11-14 |
Family
ID=42560695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009800001124A Active CN102016530B (zh) | 2009-02-13 | 2009-02-13 | 一种基音周期检测方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9153245B2 (zh) |
CN (1) | CN102016530B (zh) |
WO (1) | WO2010091554A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103915099A (zh) * | 2012-12-29 | 2014-07-09 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
WO2010028292A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
WO2010028301A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum harmonic/noise sharpness control |
WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
CN102842305B (zh) * | 2011-06-22 | 2014-06-25 | 华为技术有限公司 | 一种基音检测的方法和装置 |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
CN103064973A (zh) * | 2013-01-09 | 2013-04-24 | 华为技术有限公司 | 极值搜索方法及装置 |
US9484044B1 (en) * | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
US9418671B2 (en) | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN103888154B (zh) * | 2014-03-31 | 2017-10-20 | 四川九洲空管科技有限责任公司 | 一种多通道抗干扰与抗混叠脉冲序列解码方法 |
US10204643B2 (en) | 2016-03-31 | 2019-02-12 | OmniSpeech LLC | Pitch detection algorithm based on PWVT of teager energy operator |
CN109119097B (zh) * | 2018-10-30 | 2021-06-08 | Oppo广东移动通信有限公司 | 基音检测方法、装置、存储介质及移动终端 |
EP3935632B1 (en) * | 2019-03-07 | 2024-04-24 | Harman International Industries, Incorporated | Method and system for speech separation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999897A (en) * | 1997-11-14 | 1999-12-07 | Comsat Corporation | Method and apparatus for pitch estimation using perception based analysis by synthesis |
US6243672B1 (en) * | 1996-09-27 | 2001-06-05 | Sony Corporation | Speech encoding/decoding method and apparatus using a pitch reliability measure |
CN101325631A (zh) * | 2007-06-14 | 2008-12-17 | 华为技术有限公司 | 一种实现丢包隐藏的方法和装置 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
JPH0896514A (ja) * | 1994-07-28 | 1996-04-12 | Sony Corp | オーディオ信号処理装置 |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5774836A (en) * | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
FI114248B (fi) * | 1997-03-14 | 2004-09-15 | Nokia Corp | Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen |
FI113903B (fi) * | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
JP4550176B2 (ja) * | 1998-10-08 | 2010-09-22 | 株式会社東芝 | 音声符号化方法 |
JP3784583B2 (ja) * | 1999-08-13 | 2006-06-14 | 沖電気工業株式会社 | 音声蓄積装置 |
CN1216361C (zh) * | 2000-04-06 | 2005-08-24 | 艾利森电话股份有限公司 | 利用二进制信号估计语音信号的音调 |
US6931373B1 (en) * | 2001-02-13 | 2005-08-16 | Hughes Electronics Corporation | Prototype waveform phase modeling for a frequency domain interpolative speech codec system |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
CN1430204A (zh) * | 2001-12-31 | 2003-07-16 | 佳能株式会社 | 波形信号分析、基音探测以及句子探测的方法和设备 |
US7236927B2 (en) * | 2002-02-06 | 2007-06-26 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using interpolation techniques |
US7529661B2 (en) * | 2002-02-06 | 2009-05-05 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using quadratically-interpolated and filtered peaks for multiple time lag extraction |
US7752037B2 (en) * | 2002-02-06 | 2010-07-06 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using sub-multiple time lag extraction |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
CN1412742A (zh) * | 2002-12-19 | 2003-04-23 | 北京工业大学 | 基于波形相关法的语音信号基音周期检测方法 |
US7379866B2 (en) * | 2003-03-15 | 2008-05-27 | Mindspeed Technologies, Inc. | Simple noise suppression model |
US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
KR100516678B1 (ko) * | 2003-07-05 | 2005-09-22 | 삼성전자주식회사 | 음성 코덱의 음성신호의 피치검출 장치 및 방법 |
SG120121A1 (en) | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
KR100552693B1 (ko) * | 2003-10-25 | 2006-02-20 | 삼성전자주식회사 | 피치검출방법 및 장치 |
JP4599558B2 (ja) * | 2005-04-22 | 2010-12-15 | 国立大学法人九州工業大学 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
DE602006012528D1 (de) * | 2005-10-21 | 2010-04-08 | Koninkl Philips Electronics Nv | Akustischer echolöscher |
CN101030374B (zh) * | 2007-03-26 | 2011-02-16 | 北京中星微电子有限公司 | 基音周期提取方法及装置 |
CN101030375B (zh) * | 2007-04-13 | 2011-01-26 | 清华大学 | 一种基于动态规划的基音周期提取方法 |
US8630863B2 (en) * | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
GB2466668A (en) * | 2009-01-06 | 2010-07-07 | Skype Ltd | Speech filtering |
-
2009
- 2009-02-13 CN CN2009800001124A patent/CN102016530B/zh active Active
- 2009-02-13 WO PCT/CN2009/070423 patent/WO2010091554A1/zh active Application Filing
-
2010
- 2010-04-09 US US12/798,715 patent/US9153245B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6243672B1 (en) * | 1996-09-27 | 2001-06-05 | Sony Corporation | Speech encoding/decoding method and apparatus using a pitch reliability measure |
US5999897A (en) * | 1997-11-14 | 1999-12-07 | Comsat Corporation | Method and apparatus for pitch estimation using perception based analysis by synthesis |
CN101325631A (zh) * | 2007-06-14 | 2008-12-17 | 华为技术有限公司 | 一种实现丢包隐藏的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103915099A (zh) * | 2012-12-29 | 2014-07-09 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
CN103915099B (zh) * | 2012-12-29 | 2016-12-28 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2010091554A1 (zh) | 2010-08-19 |
US9153245B2 (en) | 2015-10-06 |
US20100211384A1 (en) | 2010-08-19 |
CN102016530A (zh) | 2011-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102016530B (zh) | 一种基音周期检测方法和装置 | |
CN101471072B (zh) | 高频重建方法、编码装置和解码装置 | |
US6311154B1 (en) | Adaptive windows for analysis-by-synthesis CELP-type speech coding | |
EP2489041B1 (en) | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms | |
US9082416B2 (en) | Estimating a pitch lag | |
RU2007140365A (ru) | Системы, способы и устройства для высокополосного предыскажения шкалы времени | |
Shi et al. | Speech loss compensation by generative adversarial networks | |
CN102201240A (zh) | 基于逆滤波的谐波噪声激励模型声码器 | |
CN101599272B (zh) | 基音搜索方法及装置 | |
Goodwin | The STFT, sinusoidal models, and speech modification | |
Kumar et al. | Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time | |
JP6306718B2 (ja) | 欠落データにわたる正弦波内挿 | |
Chong et al. | A new waveform interpolation coding scheme based on pitch synchronous wavelet transform decomposition | |
US20210201938A1 (en) | Real-time pitch tracking by detection of glottal excitation epochs in speech signal using hilbert envelope | |
Samad et al. | Pitch detection of speech signals using the cross-correlation technique | |
Khaldi et al. | HHT-based audio coding | |
Milivojević et al. | Estimation of the fundamental frequency of the speech signal compressed by mp3 algorithm | |
CN101388213A (zh) | 一种预回声控制方法 | |
CN105405444B (zh) | 一种在Odd-DFT域对含噪正弦信号进行参数估计的方法 | |
Jin et al. | Effective complexity reduction in codebook search for ACELP? | |
Cai et al. | A modified pitch detection method based on wavelet transform | |
Hasanain | Deep Learning Approach to Speech Recognition: A Signal Extractor & Producer for Artificial General Intelligence | |
CN104111374B (zh) | 一种基于mdct系数进行正弦频率估计的方法 | |
Master et al. | Nonstationary sinusoidal modeling with efficient estimation of linear frequency chirp parameters | |
Füg | Spectral Windowing for Enhanced Temporal Noise Shaping Analysis in Transform Audio Codecs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |