[go: up one dir, main page]

CN104835498B - 基于多类型组合特征参数的声纹识别方法 - Google Patents

基于多类型组合特征参数的声纹识别方法 Download PDF

Info

Publication number
CN104835498B
CN104835498B CN201510268063.XA CN201510268063A CN104835498B CN 104835498 B CN104835498 B CN 104835498B CN 201510268063 A CN201510268063 A CN 201510268063A CN 104835498 B CN104835498 B CN 104835498B
Authority
CN
China
Prior art keywords
speech
filter
feature
spectrum
lpcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510268063.XA
Other languages
English (en)
Other versions
CN104835498A (zh
Inventor
李勇明
谢文宾
王品
刘玉川
徐莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Huineng Cloud Control Technology Co ltd
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201510268063.XA priority Critical patent/CN104835498B/zh
Publication of CN104835498A publication Critical patent/CN104835498A/zh
Application granted granted Critical
Publication of CN104835498B publication Critical patent/CN104835498B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、ΔMFCC、ΔLPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM‑UBM模型对测试语音进行识别。与单一的语音信号特征参数进行声纹识别相比,采用组合特征参数并使用GMM‑UBM模型的声纹识别系统,有效地提高了声纹识别的识别准确率和系统稳定性。

Description

基于多类型组合特征参数的声纹识别方法
技术领域
本发明涉及语音信号处理领域,具体涉及一种基于多类型组合特征参数的声纹识别方法。
背景技术
在当今信息时代的前提下,作为信息安全的重要组成部分之一的身份识别技术引来了新的挑战。传统的密码识别由于算法的局限性与硬软件解密技术的上升已经展现出了它的弊端。作为身份识别的新技术之一,声纹识别技术,因其独特的方便性、经济性及准确性等优点,受到人们越来越多的重视。
声纹识别,就是从说话人的一段语音中提取出说话人的个性特征,通过对个人特征的分析与识别,从而达到对说话人进行辨认或者确认的目的。说话人识别并不注意语音信号的内容,而是希望从语音信号中提取个人的特征,由于每个人独特的声道特性和发音特点,使得说话人的语音信号具有区别于其他说话人的特征,这就是声纹识别的基本依据。
声纹识别的关键技术,主要是语音信号的特征参数提取和识别模型的建立。最常用的语音信号的特征参数有两种:一种是根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),反映了说话人语音的听觉频率的非线性特性,在噪声中环境中能体现优势;另一种是根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC),反映了说话人声道的生理结构差异。MFCC分析着眼于人耳的听觉特性,MEL频率尺度更符合人耳的听觉特性,能很好的反映语音的特性。LPCC特征参数提取,是基于语音信号为自回归信号的假设,利用线性预测分析从而获得倒谱参数。LPCC参数的最大优点是它能够极为精确地估计语音参数,用很少的参数有效而又正确地表现语音波形机器频谱的性质,而且计算效率高,且对元音有较好的表示能力,它缺点在于不能体现辅音的个性特征,抗噪声性能较差,识别率容易受环境的影响。GFCC参数是根据人耳耳蜗的听觉响应特性模拟而来,通过Gammatone滤波器模拟人耳处理声音的过程,即Gammatone滤波器倒谱系数,在说话人识别系统中的表现要优于MFCC和LPCC。因此,采用MFCC、LPCC、GFCC组合特征参数,能够有效地取长补短,使得声纹识别系统具有较好的识别率和稳定性。
目前声纹识别系统中的模式匹配方法主要有概率统计方法、动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)、人工神经网络方法(ANN)、支持向量机(SVM)、动态贝叶斯网络(DBN)技术以及这些方法的组合技术等。
目前在文本无关说话人识别中,概率统计方法使用较为普遍,特别是高斯混合模型(GMM),利用语音中的说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益等的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。但是训练语音不足时,基于GMM的声纹识别系统的识别率急剧下降。为了克服因训练语音不够的而不能够很好的刻画说话人的语音特征的缺陷,而引入了通用背景模型(UBM),从而产生了基于GMM-UBM的说话人识别。
发明内容
本申请通过提供一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别,以解决现有技术中利用单一语音参数进行声纹识别的识别准确率不高以及声纹识别系统不稳定的技术问题。
为解决上述技术问题,本申请采用以下技术方案予以实现:
一种基于多类型组合特征参数的声纹识别方法,包括如下步骤:
S1:语音信号的采集输入;
S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;
S3:语音信号组合特征参数提取:提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
S4:利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;
S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;
S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。
其中步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件,语音与文本无关的连续语音。
步骤S2中的语音信号的预处理,主要包括预加重、分帧和加窗处理。
1、预加重:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高倍频大约在800Hz以上按6dB/倍频跌落,所以求语音信号频谱,频率越高对应的成分越小,高频部分的频谱也越难求,为此要进行预加重处理。其目的是要提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般在语音信号数字化之后,且预加重滤波器是一阶的,其滤波器的实现形式:H(z)=1-u*z-1,其中u一般在(0.9,1)之间。截取一段语音信号,其中采样频率为16Khz,量化比特位为16,随意选取256个采样值。
2、分帧、加窗:由于语音信号具有短时平稳性,预处理完成后需对语音信号进行分帧、加窗处理,便于用短时分析技术对语音信号进行处理。通常情况下,每秒钟的帧数约为33~100帧,分帧既可采用连续分段的方法,也可采用交叠分段的方法,但后者可以使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移和帧长的比值一般取为(0~1/2)。一边将语音信号用可移动有限长度的窗口进行截取即分帧,通常采用的窗函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。
语音信号经过预处理之后,将提取特征参数,特征参数的选择应当满足几个原则:第一,易于从语音信号中提取特征参数;第二,不容易被模仿;第三,不随时间和空间变化,具有相对的稳定性;第四,能够有效识别不同的说话人。目前说话人确认系统主要依靠语音的低层次声学特征来进行识别,这些特征可分为时域特征和变换域特征。在本发明的步骤S3中,选取12维MFCC,12维△MFCC,12维LPCC,12维△LPCC,1维能量参数,1维能量的一阶差分参数,22维GFCC,组成72维特征向量。
1、MFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里 叶变换FFT来对每一帧语音信号进行离散余弦变化DCT。先将每一帧时域信号x(n)后补若干 个0以形成长度为N的序列,本发明中N=256,然后对其进行快速傅立叶变换,最后得到线性 频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)对频谱X(k)去平方求得能量谱,然后通过Mel频率滤波器进行平滑,并消除谐波,得到相应的Mel频谱。其中Mel频率滤波器组是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个三角形带通滤波器Hm(k)(0≤m≤M,M为滤波器的个数),其中心频率为f(m),各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
三角形带通滤波器组的传递函数可用下式表示:
(3)对Mel滤波器组输出的Mel谱取按下式计算对数得到对数频谱S(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱S(m)进行离散余弦变换DCT,得到MFCC参数c(n)。
其中L为MFCC参数的阶数。
2、短时归一化能量特征参数提取的具体步骤如下:
(1)给定语音段中的长度为N的一帧{Si(n),n=1,2,…,N},计算该帧的短时对数能量的公式如下,其中L是语音段的帧数。
(2)由于不同语音段不同语音帧的能量差别比较大,为了使其能够于前面的倒谱系数一起作为向量计算,需要进行归一化处理。其中Emax=max El,即语音段中最大的对数能量。
3、LPCC特征参数提取的具体步骤如下:
(1)求解线性预测LPC:在线性预测(LPC)分析中,声道模型表示为式(6)的全极点 模型,
式中p是LPC分析的阶数,ak为线性预测系数(k=1,2,…,p),A(z)为逆滤波器。LPC的分析就是求解线性预测系数ak,本发明采用基于自相关的递推求解公式法(即Durbin算法)。
(2)求LPC的倒谱系数LPCC:已预处理的语音信号x(n)复倒谱定义为x(n)的Z变换的对数反Z变换,即为
只考虑X(z)的模,忽略它的相位,就得到信号的倒谱c(n)为:
LPCC不是由输入语音信号x(n),而是由LPC系数an得到的。LPCC参数Cn的递推公式:
4、动态特征参数:△MFCC、△LPCC、一阶差分能量参数提取的具体步骤如下:
前面介绍的MFCC、LPCC、能量特征参数只表征了语音谱的及时信息,属于静态参数。实验表明,语音谱的动态信息中也包含有与说话人有关的信息,可以用来提高说话人识别系统的识别率。
(1)语音倒谱的动态信息是表征语音特征参数随时间变化的规律。语音倒谱随时间的变化可用下式表达:
公式中,cm表示第m阶倒谱系数,n和k表示倒谱系数在时间轴上的序号。h(k)(k=-K,-K+1,…,K-1,K)为长度是2K+1的窗函数,它通常是对称的。正交多项式的一阶系数Δcm(n)如式(10)所示。
(2)实际应用中窗函数多采用矩形窗,K通常取2,此时动态参数就称为当前帧的前两帧和后两帧参数的线性组合。所以按照式(10)可以得到MFCC、LPCC、能量的一阶动态参数。
5、GFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里 叶变换FFT来对每一帧语音信号进行离散余弦变换DCT。先将每一帧时域信号x(n)后补若干 个0以形成长度为N(本发明中取N=256)的序列,然后对其进行快速傅立叶变换,最后得到 线性频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)获得Gammatone滤波器组,Gammatone滤波器是一个标准的耳蜗听觉滤波器,该滤波器的时域脉冲响应为:
g(t)=Atn-1e-2πbtcos(2πfii)U(t),t≥0,1≤i≤N (12)
式中,A为滤波器增益,fi是滤波器的中心频率,U(t)是阶跃函数,φi是相位,为了简化模型,令φi为0,n是滤波器的阶数,实验表明n=4时能够很好的模拟人耳耳蜗的滤波特性。
bi是滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与滤波器的带宽有关,bi=1.019ERB(fi),在听觉心理学中,
式中,N为滤波器的个数,本发明采用的是N=64,即由64个Gammatone滤波器叠加成的带通滤波器组实现耳蜗模型。各滤波器组的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz-8000Hz,每个中心频率的计算公式如下:
其中fH为滤波器截止频率,vi是滤波器重叠因子,用来指定相邻滤波器之间重叠百分比。每个滤波器中心频率确定后,相应的带宽可由式(14)获得。
(3)Gammatone滤波器组滤波。对步骤(1)得到的功率谱X(k)取平方得到能量谱,然后用Gammatone滤波组Gm(k)进行滤波处理。得到对数频谱s(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱s(m)进行离散余弦变换DCT,得到GFCC参数G(n)。
进一步地,步骤S3中提取得到的72维组合特征参数,可能含有说话人个性特征、话语信息特征等较大的冗余量,所以采用遗传算法筛选出能够表征说话人语音个性特征的特征参量,同时也减少了特征量的维度,提高了系统运行的效率和识别率。
进一步地,步骤S4中遗传算法的具体步骤包括:
A1:生成初始种群;
A2:选择:根据初始种群矩阵中的适应度值进行排序,并将排序后的矩阵复制到初排序的种群矩阵中;
A3:交叉:利用初排序的种群矩阵进行交叉操作,随机产生一个范围在[0,1]的数,用以比较交叉概率并确定交叉位置,若交叉位置是1或者72,则不予交叉直接进入下一次循环;若交叉位置在1-72范围内,则执行从该位置起的两相邻之间个体的互相交叉,并储存交叉结果,最终输出交叉后的种群矩阵;
A4:变异:利用交叉后的种群矩阵进行变异操作,随机产生一个范围在[0,1]的数,用以比较变异概率并确定变异位置,变异位置是产生自1-72的随机数,然后执行变异操作,即将该位置的值取反,最终储存变异后的种群矩阵;
A5:更新:更新最终变异后的种群矩阵的适应度函数与最佳位置,并将适应度函数存入适应度值矩阵中,用以对比误差,最佳适应度值保存在每一代最佳适应度值矩阵中,获得最佳适应度值的个体保存在特征选择后的个体矩阵中,该个体中1的个数即选中的特征的维度保存在特征选择后的特征维数矩阵中;
A6:计数器加一,并判断两次间的适应度函数误差是否小于0.00001,若小于0.00001的次数达到30,或计数器的值达到50,则进入步骤A7,否则,继续步骤A2;
A7:输出最佳特征参数。
其中步骤A1中,初始种群数为100,步骤S3所提取的72维特征参数,因此每个个体也为72位二进制数,其中每个个体中的1表示选择该维度的特征参数,0表示未选中该维度的特征,并且以GMM-UBM识别过程中的等概率EER作为评价函数,使其获得最小值。
进一步地,在训练语音不足时,基于GMM的声纹识别系统的识别率急剧下降。为了克服因训练语音不够的而不能够很好的刻画说话人的语音特征的缺陷,而引入了通用背景模型(UBM),从而产生了基于GMM-UBM的说话人识别。用GMM-UBM模型对测试语音进行识别。步骤S5中具体包括:
高斯混合模型GMM是单一的高斯密度函数的扩展,设有M个单一高斯概率分布函数,一个高斯组合概率分布的定义为:
单一的高斯概率密度函数表示为:
首先根据每个说话人的语音进行训练得到一组参数:权值,均值,协方差矩阵用来表征说话人的身份,这就需要对各个参数进行估计,也称为模型训练;
UBM训练过程:只用一个UBM代表所以说话人统计的平均语音特征,UBM训练过程是一个自适应的阶段,实际的应用中可以不断的扩充语音库,用不断增加的语音库来训练得到UBM,似然率计算如下式:
其中为高斯对角矩阵的均值和方差参数;
UBM自适应过程:使用最大后验概率MAP对UBM模型的均值μi进行自适应:给定一个UBM模型和说话人X={x1,x2,....xt},得到
由上式得高斯模型均值自适应公式为:μi=αEi(x)+(1-α)μi,每个说话人的模型是在UBM上根据说话人的训练语音自适应得到的。
进一步地,说话人的识别过程可看作一个假设检验问题,步骤S6具体包括:通过测试说话人的语音,与语音库中建立的语音模板进行匹配,来获得测试语音的身份,假设H0为输入语音,X为目标说话人,H1为冒充者语音,一个对数似然比分数定义为:
S(X)=log{p(H0)/p(H1)} (21)
通过计算似然得分,最大似然得分即为目标说话人。
与现有技术相比,本申请提供的技术方案,具有的技术效果或优点是:有效地提高了声纹识别的识别准确率和系统稳定性。
附图说明
图1为本发明的工作流程图;
图2为本发明的遗传算法的工作流程图。
具体实施方式
本申请实施例通过提供一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别,以解决现有技术中利用单一语音参数进行声纹识别的识别准确率不高以及声纹识别系统不稳定的技术问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式,对上述技术方案进行详细的说明。
实施例
一种基于多类型组合特征参数的声纹识别方法,其特征在于,包括如下步骤:
S1:语音信号的采集输入;
S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;
S3:语音信号组合特征参数提取:提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
S4:利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率EER作为评价函数,选取使得等错误率EER最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;
S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;
S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。
如图1所示,为本发明的工作流程图。
其中步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件,语音与文本无关的连续语音。本实施例的实验录制了10个人的小语音库,其中6男4女。为提高语音质量,用Cool Edit软件去除静音段,并将噪声衰减10dB,除此之外,本实施例也采用了国际上研究声纹识别的通用的TIMIT语音库,选取了60个人的语音作为实验的样本。
步骤S2中的语音信号的预处理,主要包括预加重、分帧和加窗处理。
1、预加重:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高倍频大约在800Hz以上按6dB/倍频跌落,所以求语音信号频谱,频率越高对应的成分越小,高频部分的频谱也越难求,为此要进行预加重处理。其目的是要提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般在语音信号数字化之后,且预加重滤波器是一阶的,其滤波器的实现形式:H(z)=1-u*z-1,其中u一般在(0.9,1)之间。本实施例中u=0.95,即H(z)=1-0.95*z-1。截取一段语音信号,其中采样频率为16Khz,量化比特位为16,随意选取256个采样值。
2、分帧、加窗:由于语音信号具有短时平稳性,预处理完成后需对语音信号进行分帧、加窗处理,便于用短时分析技术对语音信号进行处理。通常情况下,每秒钟的帧数约为33~100帧,分帧既可采用连续分段的方法,也可采用交叠分段的方法,但后者可以使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移和帧长的比值一般取为(0~1/2)。本实施例中帧长为256(32ms),帧移为100。一边将语音信号用可移动有限长度的窗口进行截取即分帧,通常采用的窗函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。
语音信号经过预处理之后,将提取特征参数,特征参数的选择应当满足几个原则:第一,易于从语音信号中提取特征参数;第二,不容易被模仿;第三,不随时间和空间变化,具有相对的稳定性;第四,能够有效识别不同的说话人。目前说话人确认系统主要依靠语音的低层次声学特征来进行识别,这些特征可分为时域特征和变换域特征。在本实施例的步骤S3中,选取12维MFCC,12维△MFCC,12维LPCC,12维△LPCC,1维能量参数,1维能量的一阶差分参数,22维GFCC,组成72维组合特征参数。
1、MFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里 叶变换FFT来对每一帧语音信号进行离散余弦变化DCT。先将每一帧时域信号x(n)后补若干 个0以形成长度为N的序列,本发明中N=256,然后对其进行快速傅立叶变换,最后得到线性 频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)对频谱X(k)去平方求得能量谱,然后通过Mel频率滤波器进行平滑,并消除谐波,得到相应的Mel频谱。其中Mel频率滤波器组是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个三角形带通滤波器Hm(k)(0≤m≤M,M为滤波器的个数),其中心频率为f(m),各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
三角形带通滤波器组的传递函数可用下式表示:
(3)对Mel滤波器组输出的Mel谱取按下式计算对数得到对数频谱S(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱S(m)进行离散余弦变换DCT,得到MFCC参数c(n)。
其中L为MFCC参数的阶数。
2、短时归一化能量特征参数提取的具体步骤如下:
(1)给定语音段中的长度为N的一帧{Si(n),n=1,2,…,N},计算该帧的短时对数能量的公式如下,其中L是语音段的帧数。
(2)由于不同语音段不同语音帧的能量差别比较大,为了使其能够于前面的倒谱系数一起作为向量计算,需要进行归一化处理。其中Emax=max El,即语音段中最大的对数能量。
3、LPCC特征参数提取的具体步骤如下:
(1)求解线性预测LPC:在线性预测(LPC)分析中,声道模型表示为式(6)的全极点 模型,
式中p是LPC分析的阶数,ak为线性预测系数(k=1,2,…,p),A(z)为逆滤波器。LPC的分析就是求解线性预测系数ak,本发明采用基于自相关的递推求解公式法(即Durbin算法)。
(2)求LPC的倒谱系数LPCC:已预处理的语音信号x(n)复倒谱定义为x(n)的Z变换的对数反Z变换,即为:
只考虑X(z)的模,忽略它的相位,就得到信号的倒谱c(n)为:
LPCC不是由输入语音信号x(n),而是由LPC系数an得到的。LPCC参数Cn的递推公式:
4、动态特征参数:△MFCC、△LPCC、一阶差分能量参数提取的具体步骤如下:
前面介绍的MFCC、LPCC、能量特征参数只表征了语音谱的及时信息,属于静态参数。实验表明,语音谱的动态信息中也包含有与说话人有关的信息,可以用来提高说话人识别系统的识别率。
(1)语音倒谱的动态信息是表征语音特征参数随时间变化的规律。语音倒谱随时间的变化可用下式表达:
公式中,cm表示第m阶倒谱系数,n和k表示倒谱系数在时间轴上的序号。h(k)(k=-K,-K+1,…,K-1,K)为长度是2K+1的窗函数,它通常是对称的。正交多项式的一阶系数Δcm(n)如式(31)所示。
(2)实际应用中窗函数多采用矩形窗,K通常取2,此时动态参数就称为当前帧的前两帧和后两帧参数的线性组合。所以按照式(31)可以得到MFCC、LPCC、能量的一阶动态参数。
5、GFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里 叶变换FFT来对每一帧语音信号进行离散余弦变换DCT。先将每一帧时域信号x(n)后补若干 个0以形成长度为N(本发明中取N=256)的序列,然后对其进行快速傅立叶变换,最后得到 线性频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)获得Gammatone滤波器组,Gammatone滤波器是一个标准的耳蜗听觉滤波器,该滤波器的时域脉冲响应为:
g(t)=Atn-1e-2πbtcos(2πfii)U(t),t≥0,1≤i≤N (33)
式中,A为滤波器增益,fi是滤波器的中心频率,U(t)是阶跃函数,φi是相位,为了简化模型,令φi为0,n是滤波器的阶数,实验表明n=4时能够很好的模拟人耳耳蜗的滤波特性。
bi是滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与滤波器的带宽有关,bi=1.019ERB(fi),在听觉心理学中,
式中,N为滤波器的个数,本发明采用的是N=64,即由64个Gammatone滤波器叠加成的带通滤波器组实现耳蜗模型。各滤波器组的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz-8000Hz,每个中心频率的计算公式如下:
其中fH为滤波器截止频率,vi是滤波器重叠因子,用来指定相邻滤波器之间重叠百分比。每个滤波器中心频率确定后,相应的带宽可由式(35)获得。
(3)Gammatone滤波器组滤波。对步骤(1)得到的功率谱X(k)取平方得到能量谱,然后用Gammatone滤波组Gm(k)进行滤波处理。得到对数频谱s(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱s(m)进行离散余弦变换DCT,得到GFCC参数G(n)。
进一步地,步骤S3中提取得到的72维组合特征参数,可能含有说话人个性特征、话语信息特征等较大的冗余量,所以采用遗传算法筛选出能够表征说话人语音个性特征的特征参量,同时也减少了特征量的维度,提高了系统运行的效率和识别率。
如图2所示,步骤S4中的遗传算法具有包括以下步骤:
A1:生成初始种群;
A2:选择:根据初始种群矩阵中的适应度值进行排序,并将排序后的矩阵复制到初排序的种群矩阵中;
A3:交叉:利用初排序的种群矩阵进行交叉操作,随机产生一个范围在[0,1]的数,用以比较交叉概率并确定交叉位置,若交叉位置是1或者72,则不予交叉直接进入下一次循环;若交叉位置在1-72范围内,则执行从该位置起的两相邻之间个体的互相交叉,并储存交叉结果,最终输出交叉后的种群矩阵;
A4:变异:利用交叉后的种群矩阵进行变异操作,随机产生一个范围在[0,1]的数,用以比较变异概率并确定变异位置,变异位置是产生自1-72的随机数,然后执行变异操作,即将该位置的值取反,最终储存变异后的种群矩阵;
A5:更新:更新最终变异后的种群矩阵的适应度函数与最佳位置,并将适应度函数存入适应度值矩阵中,用以对比误差,最佳适应度值保存在每一代最佳适应度值矩阵中,获得最佳适应度值的个体保存在特征选择后的个体矩阵中,该个体中1的个数即选中的特征的维度保存在特征选择后的特征维数矩阵中;
A6:计数器加一,并判断两次间的适应度函数误差是否小于0.00001,若小于0.00001的次数达到30,或计数器的值达到50,则进入步骤A7,否则,继续步骤A2;
A7:输出最佳特征参数。
其中步骤A1中,初始种群数为100,步骤S3所提取的72维特征参数,因此每个个体也为72位二进制数,其中每个个体中的1表示选择该维度的特征参数,0表示未选中该维度的特征,并且以GMM-UBM识别过程中的等概率EER作为评价函数,使其获得最小值。
进一步地,在训练语音不足时,基于GMM的声纹识别系统的识别率急剧下降。为了克服因训练语音不够的而不能够很好的刻画说话人的语音特征的缺陷,而引入了通用背景模型(UBM),从而产生了基于GMM-UBM的说话人识别。用GMM-UBM模型对测试语音进行识别。步骤S5中具体包括:
高斯混合模型GMM是单一的高斯密度函数的扩展,设有M个单一高斯概率分布函数,一个高斯组合概率分布的定义为:
单一的高斯概率密度函数表示为:
首先根据每个说话人的语音进行训练得到一组参数:权值,均值,协方差矩阵用来表征说话人的身份,这就需要对各个参数进行估计,也称为模型训练;
UBM训练过程:只用一个UBM代表所以说话人统计的平均语音特征,UBM训练过程是一个自适应的阶段,实际的应用中可以不断的扩充语音库,用不断增加的语音库来训练得到UBM,似然率计算如下式:
其中为高斯对角矩阵的均值和方差参数;
UBM自适应过程:使用最大后验概率MAP对UBM模型的均值μi进行自适应:给定一个UBM模型和说话人X={x1,x2,....xt},得到
由上式得高斯模型均值自适应公式为:μi=αEi(x)+(1-α)μi,每个说话人的模型是在UBM上根据说话人的训练语音自适应得到的。
进一步地,说话人的识别过程可看作一个假设检验问题,步骤S6具体包括:通过测试说话人的语音,与语音库中建立的语音模板进行匹配,来获得测试语音的身份,假设H0为输入语音,X为目标说话人,H1为冒充者语音,一个对数似然比分数定义为:
S(X)=log{p(H0)/p(H1)} (42)
通过计算似然得分,最大似然得分即为目标说话人。
本申请的上述实施例中,通过提供一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别。与单一的语音信号特征参数进行声纹识别相比,采用组合特征参数并使用GMM-UBM模型的声纹识别系统,有效地提高了声纹识别的识别准确率和系统稳定性。
应当指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换,也应属于本发明的保护范围。

Claims (4)

1.一种基于多类型组合特征参数的声纹识别方法,其特征在于,包括如下步骤:
S1:语音信号的采集输入;
S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;
S3:语音信号组合特征参数提取:提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
步骤S3中选取12维MFCC,12维△MFCC,12维LPCC,12维△LPCC,1维能量参数,1维能量的一阶差分参数,22维GFCC,组成72维特征向量;
特征参数提取的具体步骤包括:
1、MFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱;这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变化DCT;先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列,然后对其进行快速傅立叶变换,最后得到线性频谱X(k);X(k)与x(n)之间的转换公式为:
(2)对频谱X(k)去平方求得能量谱,然后通过Mel频率滤波器进行平滑,并消除谐波,得到相应的Mel频谱;其中Mel频率滤波器组是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个三角形带通滤波器Hm(k)(0≤m≤M,M为滤波器的个数),其中心频率为f(m),各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
三角形带通滤波器组的传递函数可用下式表示:
(3)对Mel滤波器组输出的Mel谱取按下式计算对数得到对数频谱S(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分;
(4)对对数频谱S(m)进行离散余弦变换DCT,得到MFCC参数c(n);
其中L为MFCC参数的阶数;
2、短时归一化能量特征参数提取的具体步骤如下:
(1)给定语音段中的长度为N的一帧{Si(n),n=1,2,…,N},计算该帧的短时对数能量的公式如下,其中L是语音段的帧数;
(2)由于不同语音段不同语音帧的能量差别比较大,为了使其能够于前面的倒谱系数一起作为向量计算,需要进行归一化处理;其中Emax=maxEl,即语音段中最大的对数能量;
3、LPCC特征参数提取的具体步骤如下:
(1)求解线性预测LPC:在线性预测(LPC)分析中,声道模型表示为式(6)的全极点模型:
式中p是LPC分析的阶数,ak为线性预测系数(k=1,2,…,p),A(z)为逆滤波器;LPC的分析就是求解线性预测系数ak,本发明采用基于自相关的递推求解公式法;
(2)求LPC的倒谱系数LPCC:已预处理的语音信号x(n)复倒谱定义为x(n)的Z变换的对数反Z变换,即为:
只考虑X(z)的模,忽略它的相位,就得到信号的倒谱c(n)为:
c(n)=Z-1(log|X(z)|) (8)
LPCC不是由输入语音信号x(n),而是由LPC系数an得到的;LPCC参数Cn的递推公式:
4、动态特征参数:△MFCC、△LPCC、一阶差分能量参数提取的具体步骤如下:
前面介绍的MFCC、LPCC、能量特征参数只表征了语音谱的及时信息,属于静态参数;实验表明,语音谱的动态信息中也包含有与说话人有关的信息,可以用来提高说话人识别系统的识别率;
(1)语音倒谱的动态信息是表征语音特征参数随时间变化的规律;语音倒谱随时间的变化可用下式表达:
公式中,cm表示第m阶倒谱系数,n和k表示倒谱系数在时间轴上的序号;h(k)(k=-K,-K+1,…,K-1,K)为长度是2K+1的窗函数,它通常是对称的;正交多项式的一阶系数Δcm(n)如式(10)所示;
(2)实际应用中窗函数多采用矩形窗,K通常取2,此时动态参数就称为当前帧的前两帧和后两帧参数的线性组合;所以按照式(10)可以得到MFCC、LPCC、能量的一阶动态参数;
5、GFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱;这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变换DCT;先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列,然后对其进行快速傅立叶变换,最后得到线性频谱X(k);X(k)与x(n)之间的转换公式为:
(2)获得Gammatone滤波器组,Gammatone滤波器是一个标准的耳蜗听觉滤波器,该滤波器的时域脉冲响应为:
g(t)=Atn-1e-2πbtcos(2πfii)U(t),t≥0,1≤i≤N (12)
式中,A为滤波器增益,fi是滤波器的中心频率,U(t)是阶跃函数,φi是相位,为了简化模型,令φi为0,n是滤波器的阶数;
bi是滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与滤波器的带宽有关,bi=1.019ERB(fi),在听觉心理学中,
式中,N为滤波器的个数;各滤波器组的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz-8000Hz,每个中心频率的计算公式如下:
其中fH为滤波器截止频率,vi是滤波器重叠因子,用来指定相邻滤波器之间重叠百分比;每个滤波器中心频率确定后,相应的带宽可由式(14)获得;
(3)Gammatone滤波器组滤波;对步骤(1)得到的功率谱X(k)取平方得到能量谱,然后用Gammatone滤波组Gm(k)进行滤波处理;得到对数频谱s(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分;
(4)对对数频谱s(m)进行离散余弦变换DCT,得到GFCC参数G(n);
S4:利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;
S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;
S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。
2.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S4中遗传算法的具体步骤包括:
A1:生成初始种群;
A2:选择:根据初始种群矩阵中的适应度值进行排序,并将排序后的矩阵复制到初排序的种群矩阵中;
A3:交叉:利用初排序的种群矩阵进行交叉操作,随机产生一个范围在[0,1]的数,用以比较交叉概率并确定交叉位置,若交叉位置是1或者72,则不予交叉直接进入下一次循环;若交叉位置在1-72范围内,则执行从该位置起的两相邻之间个体的互相交叉,并储存交叉结果,最终输出交叉后的种群矩阵;
A4:变异:利用交叉后的种群矩阵进行变异操作,随机产生一个范围在[0,1]的数,用以比较变异概率并确定变异位置,变异位置是产生自1-72的随机数,然后执行变异操作,即将该位置的值取反,最终储存变异后的种群矩阵;
A5:更新:更新最终变异后的种群矩阵的适应度函数与最佳位置,并将适应度函数存入适应度值矩阵中,用以对比误差,最佳适应度值保存在每一代最佳适应度值矩阵中,获得最佳适应度值的个体保存在特征选择后的个体矩阵中,该个体中1的个数即选中的特征的维度保存在特征选择后的特征维数矩阵中;
A6:计数器加一,并判断两次间的适应度函数误差是否小于0.00001,若小于0.00001的次数达到30,或计数器的值达到50,则进入步骤A7,否则,继续步骤A2;
A7:输出最佳特征参数。
3.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S2中预加重滤波器的参数u取0.95,分帧采用的帧长为256,帧移为100,窗函数采用汉明窗。
4.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件。
CN201510268063.XA 2015-05-25 2015-05-25 基于多类型组合特征参数的声纹识别方法 Expired - Fee Related CN104835498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510268063.XA CN104835498B (zh) 2015-05-25 2015-05-25 基于多类型组合特征参数的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510268063.XA CN104835498B (zh) 2015-05-25 2015-05-25 基于多类型组合特征参数的声纹识别方法

Publications (2)

Publication Number Publication Date
CN104835498A CN104835498A (zh) 2015-08-12
CN104835498B true CN104835498B (zh) 2018-12-18

Family

ID=53813338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510268063.XA Expired - Fee Related CN104835498B (zh) 2015-05-25 2015-05-25 基于多类型组合特征参数的声纹识别方法

Country Status (1)

Country Link
CN (1) CN104835498B (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105355206B (zh) * 2015-09-24 2020-03-17 车音智能科技有限公司 一种声纹特征提取方法和电子设备
CN106920557A (zh) * 2015-12-24 2017-07-04 中国电信股份有限公司 一种基于小波变换的分布声纹识别方法和装置
CN106971726A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的基于码本的声纹识别方法及系统
CN106971712A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的快速声纹识别方法及系统
CN106971711A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的声纹识别方法及系统
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN106981287A (zh) * 2016-01-14 2017-07-25 芋头科技(杭州)有限公司 一种提高声纹识别速度的方法及系统
CN105845143A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于支持向量机的说话人确认方法及其系统
CN106297807B (zh) 2016-08-05 2019-03-01 腾讯科技(深圳)有限公司 训练声纹识别系统的方法和装置
CN106328120B (zh) * 2016-08-17 2020-01-10 重庆大学 公共场所异常声音特征提取方法
CN108616373B (zh) * 2016-12-12 2021-06-18 中国科学院深圳先进技术研究院 频谱熵预测方法及系统
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置
CN108319829B (zh) * 2017-01-11 2022-05-06 中兴通讯股份有限公司 一种声纹验证方法和装置
CN106847292B (zh) 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
JP6545419B2 (ja) * 2017-03-08 2019-07-17 三菱電機株式会社 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107464563B (zh) * 2017-08-11 2020-08-04 广州迪宝乐电子有限公司 一种语音交互玩具
CN107576387B (zh) * 2017-08-18 2020-05-22 浙江大学 一种基于声纹多谐波识别的无人机检测方法
CN107464568B (zh) * 2017-09-25 2020-06-30 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及系统
CN107871498A (zh) * 2017-10-10 2018-04-03 昆明理工大学 一种基于Fisher准则以提高语音识别率的混合特征组合算法
CN108109613B (zh) * 2017-12-12 2020-08-25 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
CN108039176B (zh) * 2018-01-11 2021-06-18 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108447495B (zh) * 2018-03-28 2020-06-09 天津大学 一种基于综合特征集的深度学习语音增强方法
CN108922541B (zh) * 2018-05-25 2023-06-02 南京邮电大学 基于dtw和gmm模型的多维特征参数声纹识别方法
CN108766465B (zh) * 2018-06-06 2020-07-28 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN108831443B (zh) * 2018-06-25 2020-07-21 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
CN108899037B (zh) * 2018-07-05 2024-01-26 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN109147796B (zh) * 2018-09-06 2024-02-09 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN110047490A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN109920435B (zh) * 2019-04-09 2021-04-06 厦门快商通信息咨询有限公司 一种声纹识别方法及声纹识别装置
CN110197665B (zh) * 2019-06-25 2021-07-09 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
US11227601B2 (en) * 2019-09-21 2022-01-18 Merry Electronics(Shenzhen) Co., Ltd. Computer-implement voice command authentication method and electronic device
CN111243619B (zh) * 2020-01-06 2023-09-22 平安科技(深圳)有限公司 语音信号分割模型的训练方法、装置和计算机设备
CN111785285A (zh) * 2020-05-22 2020-10-16 南京邮电大学 面向家居多特征参数融合的声纹识别方法
CN112052994B (zh) * 2020-08-28 2025-01-17 中信银行股份有限公司 客诉升级预测方法、装置及电子设备
CN112259107A (zh) * 2020-09-28 2021-01-22 南京邮电大学 一种会议场景小样本条件下的声纹识别方法
CN111933144A (zh) * 2020-10-09 2020-11-13 融智通科技(北京)股份有限公司 后创建声纹的会议语音转写方法、装置及存储介质
CN112542174A (zh) * 2020-12-25 2021-03-23 南京邮电大学 基于vad的多维特征参数声纹识别方法
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
CN112951245B (zh) * 2021-03-09 2023-06-16 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113160836A (zh) * 2021-03-29 2021-07-23 安徽理工大学 矿用排水泵噪声多时域特征联合分析方法
CN113128399B (zh) * 2021-04-19 2022-05-17 重庆大学 用于情感识别的语音图像关键帧提取方法
CN113179444B (zh) * 2021-04-20 2022-05-17 浙江工业大学 一种基于语音识别的音字同步方法
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统
CN113823290A (zh) * 2021-08-31 2021-12-21 杭州电子科技大学 一种多特征融合的声纹识别方法
CN113823293B (zh) * 2021-09-28 2024-04-26 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN114023334A (zh) * 2021-11-05 2022-02-08 中国工商银行股份有限公司 说话人识别方法、装置、计算机设备和存储介质
CN114113943B (zh) * 2021-11-25 2024-07-30 广东电网有限责任公司广州供电局 基于电流和超声信号的变压器局放检测系统、方法及设备
CN114974259B (zh) * 2021-12-23 2024-07-12 号百信息服务有限公司 一种声纹识别方法
CN114613389A (zh) * 2022-03-16 2022-06-10 大连交通大学 一种基于改进mfcc的非语音类音频特征提取方法
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100468027B1 (ko) * 2002-10-01 2005-01-24 주식회사 미래로테크놀러지 음성 인식 도어록 장치
CN1308911C (zh) * 2003-07-10 2007-04-04 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
CN101064043A (zh) * 2006-04-29 2007-10-31 上海优浪信息科技有限公司 一种声纹门禁系统及其应用
CN101976564A (zh) * 2010-10-15 2011-02-16 中国林业科学研究院森林生态环境与保护研究所 昆虫声音识别方法
CN102800316B (zh) * 2012-08-30 2014-04-30 重庆大学 基于神经网络的声纹识别系统的最优码本设计方法
CN103839547A (zh) * 2012-11-27 2014-06-04 英业达科技有限公司 比对语音操作信号以载入对应指令元素的系统及其方法
CN103117061B (zh) * 2013-02-05 2016-01-20 广东欧珀移动通信有限公司 一种基于语音的动物识别方法及装置
WO2014168591A1 (en) * 2013-04-11 2014-10-16 Cetinturk Cetin Relative excitation features for speech recognition
CN103440873B (zh) * 2013-08-27 2015-10-28 大连理工大学 一种基于相似性的音乐推荐方法
US9538297B2 (en) * 2013-11-07 2017-01-03 The Board Of Regents Of The University Of Texas System Enhancement of reverberant speech by binary mask estimation
CN103700371B (zh) * 2013-12-13 2017-10-20 江苏大学 一种基于声纹识别的来电身份识别系统及其识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fenghua Wang ET AL."SPEAKER VERIFICATION SYSTEM USING THE COMBINATION OF FEATURE PARAMETERS BASED ON C#".《Broadband Network and Multimedia Technology 2010 3rd IEEE International Conference》.2010, *
周国鑫 等."基于GMM-UBM模型的说话人辨识研究".《无线电工程》.2014,第44卷(第12期), *
曾孝平 等."基于竞争策略的链式智能体遗传算法用于特征选择的研究".《系统仿真学报》.2008,第20卷(第8期), *
曾孝平 等."用于特征选择的多准则闭合链式遗传算法".《数据采集与处理》.2008,第23卷(第4期), *

Also Published As

Publication number Publication date
CN104835498A (zh) 2015-08-12

Similar Documents

Publication Publication Date Title
CN104835498B (zh) 基于多类型组合特征参数的声纹识别方法
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN103236260A (zh) 语音识别系统
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN108986824A (zh) 一种回放语音检测方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN108682432B (zh) 语音情感识别装置
CN109473102A (zh) 一种机器人秘书智能会议记录方法及系统
Besbes et al. Multi-class SVM for stressed speech recognition
GROZDIĆ et al. Comparison of cepstral normalization techniques in whispered speech recognition.
Tripathi et al. Speaker recognition
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Iwok et al. Evaluation of Machine Learning Algorithms using Combined Feature Extraction Techniques for Speaker Identification
Nayana et al. Performance comparison of speaker recognition systems using GMM and i-vector methods with PNCC and RASTA PLP features
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
Komlen et al. Text independent speaker recognition using LBG vector quantization
Dai et al. An improved feature fusion for speaker recognition
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Yang et al. User verification based on customized sentence reading
Shinde et al. Speech processing for isolated Marathi word recognition using MFCC and DTW features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210129

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400044 No. 174 Shapingba street, Shapingba District, Chongqing

Patentee before: Chongqing University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221020

Address after: Room 814, Free Trade Building, Dalian Free Trade Zone, Liaoning 116620

Patentee after: Dalian Huineng Cloud Control Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181218

CF01 Termination of patent right due to non-payment of annual fee