[go: up one dir, main page]

CN101465123B - 说话人认证的验证方法和装置以及说话人认证系统 - Google Patents

说话人认证的验证方法和装置以及说话人认证系统 Download PDF

Info

Publication number
CN101465123B
CN101465123B CN2007101991923A CN200710199192A CN101465123B CN 101465123 B CN101465123 B CN 101465123B CN 2007101991923 A CN2007101991923 A CN 2007101991923A CN 200710199192 A CN200710199192 A CN 200710199192A CN 101465123 B CN101465123 B CN 101465123B
Authority
CN
China
Prior art keywords
mentioned
frame
spectral change
speaker
tested speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101991923A
Other languages
English (en)
Other versions
CN101465123A (zh
Inventor
栾剑
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN2007101991923A priority Critical patent/CN101465123B/zh
Priority to JP2008321321A priority patent/JP5106371B2/ja
Priority to US12/338,906 priority patent/US20090171660A1/en
Publication of CN101465123A publication Critical patent/CN101465123A/zh
Application granted granted Critical
Publication of CN101465123B publication Critical patent/CN101465123B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供了说话人认证的验证方法,说话人认证的验证装置以及说话人认证系统。根据本发明的一个方面,提供了一种说话人认证的验证方法,包括:输入说话人说出的包含密码的测试语音;从上述输入的测试语音提取声学特征向量序列;获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算上述获得的匹配路径的匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。

Description

说话人认证的验证方法和装置以及说话人认证系统
技术领域
本发明涉及信息处理技术,具体地涉及说话人认证(speakerauthentification)的技术。
背景技术
利用每个人说话时的发音特点可以识别出不同的说话人,从而可以进行说话人的认证。在K.Yu,J.Mason,J.Oglesby发表的文章“Speakerrecognition using hidden Markov models,dynamic time warping andvector quantisation”(Vision,Image and Signal Processing,IEEProceedings,Vol.142,Oct.1995,pp.313-318)中介绍了常见的三种说话人识别引擎技术:HMM(Hidden Markov Model,隐马尔可夫模型),DTW(Dynamic Time Warping,动态时间弯折)和VQ(Vector Quantization,矢量量化)(以下称为参考文献1),在此通过参考引入其整个内容。
通常,一个说话人认证系统包括注册(enrollment)和验证(verification)两个部分。在注册阶段,根据说话人(用户)本人说出的包含密码的语音,生成该说话人的说话人模板;在验证阶段,根据说话人模板判断测试语音是否为该说话人本人说出的相同密码的语音。具体地,在验证过程中通常应用DTW算法对测试语音的声学特征向量序列与说话人模板进行DTW匹配,从而得到匹配得分,并将匹配得分与在测试阶段得到的分辨阈值进行比较,来判断测试语音是否为该说话人本人说出的相同密码的语音。在DTW算法中,计算测试语音的声学特征向量序列和说话人模板的全局匹配得分的方法通常是直接沿着最优的匹配路径将所有节点距离相加求和。基于DTW的说话人验证的具体细节参见S.Furui的文章“Cepstral analysis technique for automatic speaker verification”,Acoustics,Speech,and Signal Processing,(1981),Vol.29,No.2,pp.254-271,在此通过参考引入其整个内容。
通常,在说话人说出的密码的语音中,某些帧对于该说话人来说可能比其它帧更具有分辨力,因此与这些帧相关的帧级距离将会在验证该说话人时更为重要。可以通过在计算上述全局匹配得分时强调这些帧级距离来改善系统的性能。
目前,较常见的为帧加权的方法是使用大量用户本人语音和冒充者语音对说话人模板的测试来判断每帧的分辨力,具体细节参见X.Wen和R.Liu的文章“Enhancing the stability of speaker verification withcompressed templates”,2002,ISCSLP2002,pp.111-114,在此通过参考引入其这个内容。本发明的发明人也曾经在中国专利申请No.200510114901.4中提出了基于音素(或子词单元)识别的为帧加权的方法。即,输入语音首先被音素识别器(或分类器)解析成音素文本,然后根据关于各音素或各类音素的说话人分辨力的先验知识为输入语音的每帧设置权重。基于音素为帧加权的方法的具体细节参见中国专利申请No.200510114901.4,在此通过参考引入其这个内容。
在前一方法中,需要大量的开发数据(development data)(用户本人及用户以外的其他人朗读该密码的大量语音数据)用于测试说话人模板。因此,注册要花费很多时间,而且没有开发商的参与用户不可能独立地自由更改密码。这样,用户在使用这样的系统时非常不方便。在后一方法中,,所述音素识别器在前端中是必需的。因此,该方法适用于基于HMM的系统,因为HMM自身就可以是音素的有效模型。然而,对于基于DTW的系统来说,所述音素识别器必然将引起额外的存储需求和计算量。
因此,需要一种为密码语音中的每帧自动地评价其说话人分辨力而无需额外的开发数据的方法。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了说话人认证的验证方法,说话人认证的验证装置以及说话人认证系统。
根据本发明的一个方面,提供了一种说话人认证的验证方法,包括:输入说话人说出的包含密码的测试语音;从上述输入的测试语音提取声学特征向量序列;获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算上述获得的匹配路径的匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面,提供了一种说话人认证的验证方法,包括:输入说话人说出的包含密码的测试语音;从上述输入的测试语音提取声学特征向量序列;考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径;计算上述获得的匹配路径的匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面,提供了一种说话人认证的验证装置,包括:测试语音输入单元(test utterance inputting unit),用于输入说话人说出的包含密码的测试语音;声学特征向量序列提取单元(acoustic featurevector sequence extractor),用于从上述输入的测试语音提取声学特征向量序列;匹配路径获得单元(matching path obtaining unit),用于获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;匹配得分计算单元(matching score calculator),用于考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算上述获得的匹配路径的匹配得分;以及比较单元(comparing unit),用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面,提供了一种说话人认证的验证装置,包括:测试语音输入单元,用于输入说话人说出的包含密码的测试语音;声学特征向量序列提取单元,用于从上述输入的测试语音提取声学特征向量序列;匹配路径获得单元,用于考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径;匹配得分计算单元,用于计算上述获得的匹配路径的匹配得分;以及比较单元,用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面,提供了一种说活人认证系统,包括:注册装置,用于注册说话人模板;以及前面所述的说话人认证的验证装置,用于根据注册装置注册的说话人模板,对测试语音进行验证。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的第一实施例的说话人认证的验证方法的流程图;
图2是根据本发明的第二实施例的说话人认证的验证方法的流程图;
图3示出了测试语音和说话人模板的DTW匹配实例;
图4是根据本发明的第三实施例的说话人认证的验证装置的方框图;
图5是根据本发明的第四实施例的说话人认证的验证装置的方框图;以及
图6是根据本发明的第五实施例的说话人认证系统的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
说话人认证的验证方法
<第一实施例>
图1是根据本发明的第一实施例的说话人认证的验证方法的流程图。
下面就结合该图,对本实施例进行描述。
如图1所示,首先在步骤101,由进行验证的用户输入包含密码的测试语音。其中,密码是用户在注册阶段设定的用于验证的特定短语或发音序列。
接着,在步骤102,从步骤101中输入的测试语音提取声学特征向量序列。本发明对于表示声学特征的方式并没有特别的限制,可以采用例如,MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔倒频谱系数)、LPCC(Linear Prediction Cepstrum Coefficient,线性预测倒谱系数)或者其它基于能量、基音频率或小波分析等得到的各种系数等,只要是能够表现说话人的个人语音特点即可;但是,应当与在注册阶段用于表示声学特征的方式相对应。
接着,在步骤103,对步骤102中提取出的声学特征向量序列与注册说话人所注册的说话人模板进行匹配,获得最优匹配路径。具体地,对于HMM模型,可以利用概率进行匹配,具体细节参见上述参考文献1。对于DTW模型,可以采用DTW算法进行匹配,下面参考图3详细描述DTW算法。
图3示出了测试语音和说话人模板的DTW匹配实例。如图3所示,横轴为说话人模板的帧节点,纵轴为测试语音的帧节点。在进行DTW匹配时,计算说话人模板的一个帧节点与对应的测试语音的帧节点和其相邻的帧节点之间的节点距离,选择节点距离最小的测试语音的帧节点作为与说话人模板的所述帧节点相对应的帧节点。重复上述步骤,找出与说话人模板的每个帧节点相对应的输入语音的帧节点,从而获得最优匹配路径,其中最优匹配路径是在输入语音的声学特征向量序列和说话人模板之间具有最小距离的匹配路径,而匹配路径是沿图3所示的网格从点(1,1)到点(I,J)的路径,其中I是输入语音的帧节点数,J是说话人模板的帧节点数。应该理解,本实施例的方法可以采用除上述HMM模型和DTW模型之外的任何公知的模型,只要能够获得步骤102中提取出的声学特征向量序列与说话人模板的最优匹配路径即可。
本实施例中的说话人模板是利用说话人认证的注册方法生成的说话人模板,其中至少包含与密码语音对应的声学特征和分辨阈值。在此,对说话人认证的注册过程进行简要描述。首先,输入说话人说出的包含密码的语音。接着,从输入的密码语音提取声学特征。然后,生成说话人模板。为了提高说话人模板的质量,可以采用多个训练语音来构建一个说话人模板。首先选定一个训练语音作为初始模板,然后用DTW的方法将第二个训练语音与之时间对齐,并用两段语音中相对应的特征向量的平均来生成一个新的模板,然后再将第三个训练语音与新模板时间对齐,如此循环直到所有的训练语音都结合到一个独立的模板中,即所谓的模板合并。详细内容可以参考W H.Abdulla、D.Chow和G.Sin发表的文章“Cross-wordsreference template for DTW-based speech recognition systems”(IEEETENCON 2003,pp.1576-1579)。
此外,在说话人认证的注册过程中,说话人模板中包含的分辨阈值可以如下确定。首先,通过采集大量说话人和他人对同一密码发音的语音数据,分别与训练出的说话人模板进行DTW匹配,得到说话人和他人的匹配得分分布。然后,至少可以通过以下三种方法来估计该说话人模板的分辨阈值:
将两条分布曲线的交叉点,即,错误接受率(FAR,False Accept Rate)和错误拒绝率(FRR,False Reject Rate)的和最小处的值作为阈值;
将等误识率(EER,Equal Error Rate)对应的值作为阈值;或者
将错误接受率在某个值(如0.1%)时对应的值作为阈值。
返回到图1,接着,在步骤104,考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算步骤103中获得的匹配路径的匹配得分。
在步骤104,首先,根据上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,计算在上述匹配路径上每帧的权重。
具体地,在本实施例中,给频谱变化速度较快的帧赋予较大的权重,而给频谱变化速度较慢的帧赋予较小的权重,也就是说,在本实施例中,旨在强调那些处于快速频谱变化期间的帧。
下面将通过实例1-3详细描述本实施例的步骤104中利用频谱变化计算匹配路径上每帧的权重的方法。
<实例1>
在实例1中,基于目标帧与它在时间序列上的相邻帧之间的特征距离度量匹配路径上每帧的权重。
首先,分别为说话人模板X和测试语音Y的各帧度量频谱变化。
具体地,利用公式(1)计算说话人模板X的频谱变化dx(i):
dx(i)=(dist(xi,xi-1)+dist(xi,xi+1))/2    (1)
其中i是说话人模板X的帧的指数,x是说话人模板X中的特征向量,dist是指两个向量之间的特征距离,例如,欧几里德距离。
应该理解,这里虽然采用公式(1)利用目标帧与它在时间序列上的相邻帧之间的特征距离dist(xi,xi-1)和dist(xi,xi+1)的算术平均值来度量说话人模板X的频谱变化,但是本发明并不限与此,也可以利用特征距离dist(xi,xi-1)和dist(xi,xi+1)的几何平均值
Figure S2007101991923D00071
调和平均值1/(1/dist(xi,xi-1)+1/dist(xi,xi+1))等等来度量,只要能够充分体现说话人模板X的频谱变化即可。
此外,应该理解,这里虽然只利用目标帧与它在时间序列上最相邻的两个帧的特征距离来度量目标帧的频谱变化,但是本发明并不限与此,也可以利用相邻的更多个特征距离来度量目标帧的频谱变化。
同样,可以利用计算说话人模板X的频谱变化dx(i)的方法,根据在步骤102中提取出的声学特征向量序列,计算测试语音Y的频谱变化dy(j),其中j是测试语音Y的声学特征向量序列的帧的指数。
然后,利用计算出的话人模板X的频谱变化dx(i)和测试语音Y的频谱变化dy(j)的单调递增函数计算匹配路径上每帧的权重,例如可以利用如下公式(2)至公式(4)计算匹配路径上每帧的权重w(k):
w(k)=d(k)+c         (2)
w(k)=d(k)a+c    (3)
w(k)=log(d(k)+c)    (4)
其中,k是匹配路径的帧对的指数,其与说话人模板X的帧i和测试语音Y的帧j一一对应,a和c是常数,d(k)可以是dx(i)、dy(j)或者它们的任何组合,例如,(dx(i)+dy(j))/2,min(dx(i),dy(j)),max(dx(i),dy(j))等等。
<实例2>
在实例2中,基于使用码本的分段处理度量匹配路径上每帧的权重。
在本实施例中使用的码本是在整个应用的声学空间中训练出的码本,例如,对于中文语言应用环境来说,该码本需要能够涵盖中文语音的声学空间;对于英文语言应用环境来说,该码本则需要能够涵盖英文语音的声学空间。当然,对于一些特殊用途的应用环境,也可以相应的改变码本所涵盖的声学空间。
本实施例的码本包含多个码字以及每个码字对应的特征向量。码字的数量取决于声学空间的大小、希望的压缩比例和希望的压缩质量。声学空间越大需要的码字的数量越大。在同样的声学空间的条件下,码字的数量越小,压缩比例越高;码字的数量越大,压缩的模板质量越高。根据本发明的一个优选实施例,在普通中文语音的声学空间下,码字的数量优选为256至512。当然,根据不同需要,可以适当调节码本的码字数量和涵盖的声学空间。
在实例2中,首先用码本中最接近的码字为测试语音的声学特征向量序列的每帧做标记,然后根据这些标记对测试语音进行分段,使得一段中的所有帧都有相同的标记。因为一段中的帧都互相相似,因此可以将每段的长度认为是一种频谱变化的度量,较长的段说明该处语音变化速度慢。同样,可以使用码本为说话人模板的每帧进行标记,并进行分段,从而利用每段的长度度量说话人模板的频谱变化。
在实例2中,可以利用实例1中的公式(2)至公式(4)来计算匹配路径上每帧的权重,只是其中dx(i)和dy(j)是目标帧所在段的长度,因而是一个离散值。在这种情况下,可以使用分段函数作为将频谱变化转换成在匹配路径上每帧的权重的函数。
在本实施例中,可以使用任何类型的分段函数,例如d(k)≤10时,w(k)=1;d(k)为其它时,w(k)=0.5,其中k是匹配路径的帧对的指数,其与说话人模板X的帧i和测试语音Y的帧j一一对应,d(k)可以是dx(i)、dy(j)或者它们的任何组合,例如,(dx(i)+dy(j))/2,
Figure S2007101991923D00091
min(dx(i),dy(j)),max(dx(i),dy(j))等等,本发明对此没有任何限制。
<实例3>
在实例3中,基于目标帧与它在匹配路径上的相邻节点的帧之间的特征距离度量匹配路径上每帧的权重。
具体地,利用公式(5)计算说话人模板X的频谱变化dx(i):
Figure S2007101991923D00092
其中i是说话人模板的帧的指数,k是沿着匹配路径
Figure 2007101991923_0
的帧对的指数,
Figure 2007101991923_1
x(k)是说话人模板X的与匹配路径
Figure 2007101991923_2
的第k个帧对相对应的帧的指数,即与i相对应,x是说话人模板X中的特征向量,dist是指两个向量之间的特征距离,例如,欧几里德距离。
应该理解,这里虽然采用公式(5)利用目标帧与它在匹配路径上的相邻节点的帧之间的特征距离的算术平均值来度量说话人模板X的频谱变化,但是本发明并不限与此,也可以利用特征距离的几何平均值、调和平均值等等来度量,只要能够充分体现说话人模板X的频谱变化即可。
此外,应该理解,这里虽然只利用目标帧与它在匹配路径上的两个最相邻节点的帧的特征距离来度量目标帧的频谱变化,但是本发明并不限与此,也可以利用更多个相邻节点的帧的特征距离来度量目标帧的频谱变化。
同样,可以利用采用公式(5)计算说话人模板X的频谱变化dx(i)的方法,根据在步骤102中提取出的声学特征向量序列,计算测试语音Y的频谱变化dy(j),其中j是测试语音Y的声学特征向量序列的帧的指数。
然后,利用计算出的话人模板X的频谱变化dx(i)和测试语音Y的频谱变化dy(j)的单调递增函数计算匹配路径上每帧的权重,例如可以利用上述公式(2)至公式(4)计算权重w(k),在此不再赘述。
以上虽然通过实例1-3描述的方法利用频谱变化计算匹配路径上每帧的权重,但是本发明并不限于实例1-3描述的方法,可以采用任何利用频谱变化度量匹配路径上每帧的权重的方法,只要能够将频谱变化的快慢转换为权重的大小即可,本发明对此没有任何限制。
应该理解,在上述实例1-3描述的方法中,在计算匹配路径上每帧的权重时,可以只考虑话人模板X的频谱变化dx(i),或只考虑测试语音Y的频谱变化dy(j),或结合考虑话人模板X的频谱变化dx(i)和测试语音Y的频谱变化dy(j),本发明对此没有任何限制。
此外,应该理解,利用频谱变化度量权重的方法不限于上述公式(2)至公式(4),可以利用频谱变化的任何单调递增函数来度量权重,只要能够给频谱变化较快的帧赋予较大的权重,而给频谱变化较慢的帧赋予较小的权重即可。
返回到图1中的步骤104,在根据上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,计算出上述匹配路径上每帧的权重之后,使用计算出的匹配路径上每帧的权重,计算匹配路径的匹配得分。具体地,例如,可以将匹配路径上每帧的节点距离乘以该帧的权重,然后相加,并将相加得到的总和作为该匹配路径的匹配得分。
最后,在步骤105,判断上述步骤104中计算出的匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是,则在步骤106认定上述测试语音是同一说话人说出的密码,验证成功;如果否,则在步骤107认定验证失败。
通过以上描述可知,本实施例的说话人认证的验证方法是一种基于频谱变化速度为帧加权的有效方法,该方法计算量低,尤其适用于大多数使用频谱特征的系统。因此,将本实施例的验证方法应用在与文本相关的说话人验证系统中,可以显著提高系统的性能。
此外,本实施例的基于频谱变化速度为帧加权的方法和其它现有的加权方法,例如基于音素的方法没有冲突,因此,将它们结合使用可以进一步提高性能。
<第二实施例>
在同一发明构思下,图2是根据本发明的第二实施例的说话人认证的验证方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,在第二实施例中,步骤201和步骤202分别与第一实施例中的步骤101和步骤102相同,在此省略其说明。在步骤201中输入包含密码的测试语音并在步骤202中从步骤201中输入的测试语音提取出声学特征向量序列之后,接着,在步骤203,考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,对步骤202中提取出的声学特征向量序列与说话人模板进行匹配,获得最优匹配路径。
在步骤203,首先,根据上述测试语音的频谱变化和/或说话人模板的频谱变化,计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重。本实施例的说话人模板与第一实施例中的类似,在此省略其说明。
具体地,在本实施例中,给频谱变化速度较快的帧赋予较大的权重,而给频谱变化速度较慢的帧赋予较小的权重,也就是说,在本实施例中,旨在强调那些处于快速频谱变化期间的帧。
下面将通过实例4-5详细描述本实施例的步骤203中利用频谱变化计算帧对的权重的方法。
<实例4>
在实例4中,基于目标帧与它在时间序列上的相邻帧之间的特征距离度量帧对的权重。
首先,分别利用上述公式(1)计算说话人模板X的频谱变化dx(i)和测试语音Y的频谱变化dy(j),具体细节与上述实例1相同,在此不再赘述。
然后,利用计算出的话人模板X的频谱变化dx(i)和测试语音Y的频谱变化dy(j)的单调递增函数计算帧对的权重,例如可以利用如下公式(6)至公式(8)计算帧对的权重w(g):
w(g)=d(g)+c    (6)
w(g)=d(g)a+c    (7)
w(g)=log(d(g)+c)    (8)
其中,g是与说话人模板X的帧i和测试语音Y的帧j一一对应的帧对的指数,a和c是常数,d(g)可以是dx(i)、dy(j)或者它们的任何组合,例如,(dx(i)+dy(j))/2,
Figure S2007101991923D00121
min(dx(i),dy(j)),max(dx(i),dy(j))等等。
<实例5>
在实例5中,基于使用码本的分段处理度量帧对的权重。
在本实施例中使用的码本是在整个应用的声学空间中训练出的码本,例如,对于中文语言应用环境来说,该码本需要能够涵盖中文语音的声学空间;对于英文语言应用环境来说,该码本则需要能够涵盖英文语音的声学空间。当然,对于一些特殊用途的应用环境,也可以相应的改变码本所涵盖的声学空间。
本实施例的码本包含多个码字以及每个码字对应的特征向量。码字的数量取决于声学空间的大小、希望的压缩比例和希望的压缩质量。声学空间越大需要的码字的数量越大。在同样的声学空间的条件下,码字的数量越小,压缩比例越高;码字的数量越大,压缩的模板质量越高。根据本发明的一个优选实施例,在普通中文语音的声学空间下,码字的数量优选为256至512。当然,根据不同需要,可以适当调节码本的码字数量和涵盖的声学空间。
在实例5中,首先用码本中最接近的码字为测试语音的声学特征向量序列的每帧做标记,然后根据这些标记对测试语音进行分段,使得一段中的所有帧都有相同的标记。因为一段中的帧都互相相似,因此可以将每段的长度认为是一种频谱变化的度量,较长的段说明该处语音变化速度慢。同样,可以使用码本为说话人模板的每帧进行标记,并进行分段,从而利用每段的长度度量说话人模板的频谱变化。
在实例5中,可以利用实例4中的公式(6)至公式(8)来计算帧对的权重,只是其中dx(i)和dy(j)是目标帧所在段的长度,因而是一个离散值。在这种情况下,可以使用分段函数作为将频谱变化转换成帧对的每帧的权重的函数。
在本实施例中,可以使用任何类型的分段函数,例如d(g)≤10时,w(g)=1;d(g)为其它时,w(g)=0.5,其中g是与说话人模板X的帧i和测试语音Y的帧j一一对应的帧对的指数,d(g)可以是dx(i)、dy(j)或者它们的任何组合,例如,(dx(i)+dy(j))/2,
Figure S2007101991923D00131
min(dx(i),dy(j)),max(dx(i),dy(j))等等,本发明对此没有任何限制。
以上虽然通过实例4-5描述的方法利用频谱变化计算帧对的权重,但是本发明并不限于实例4-5描述的方法,可以采用任何利用频谱变化度量帧对的权重的方法,只要能够将频谱变化的快慢转换为权重的大小即可,本发明对此没有任何限制。
应该理解,在上述实例4-5描述的方法中,在计算帧对的权重时,可以只考虑话人模板X的频谱变化dx(i),或只考虑测试语音Y的频谱变化dy(j),或结合考虑话人模板X的频谱变化dx(i)和测试语音Y的频谱变化dy(j),本发明对此没有任何限制。
此外,应该理解,利用频谱变化度量权重的方法不限于上述公式(6)至公式(8),可以利用频谱变化的任何单调递增函数来度量权重,只要能够给频谱变化较快的帧赋予较大的权重,而给频谱变化较慢的帧赋予较小的权重即可。
返回到图2中的步骤203,在根据上述测试语音的频谱变化和/或说话人模板的频谱变化,计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重之后,使用计算出的帧对的权重,对步骤202中提取出的声学特征向量序列与说话人模板进行匹配,获得最优匹配路径。
具体地,对于HMM模型,可以利用概率进行匹配,具体细节参见上述参考文献1。对于DTW模型,可以采用DTW算法进行匹配,具体参见上述第一实施例中参考图3进行的详细描述,在此省略其说明。
接着,在步骤204,计算在步骤203中获得的匹配路径的匹配得分。具体地,例如,可以将匹配路径上每帧的节点距离相加,并将相加得到的总和作为该匹配路径的匹配得分。
最后,在步骤205,判断上述步骤204中计算出的匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是,则在步骤206认定上述测试语音是同一说话人说出的密码,验证成功;如果否,则在步骤207认定验证失败。
通过以上描述可知,本实施例的说话人认证的验证方法是一种基于频谱变化速度为帧加权的有效方法,该方法计算量低,尤其适用于大多数使用频谱特征的系统。因此,将本实施例的验证方法应用在与文本相关的说话人验证系统中,可以显著提高系统的性能。
此外,本实施例的基于频谱变化速度为帧加权的方法和其它现有的加权方法,例如基于音素的方法没有冲突,因此,将它们结合使用可以进一步提高性能。
此外,与第一实施例的验证方法相比,本实施例的验证方法在搜索最优匹配路径时考虑了测试语音的频谱变化和说话人模板的频谱变化,可以更加准确地搜索到最优匹配路径,从而能够进一步提高系统的性能。
说话人认证的验证装置
<第三实施例>
在同一发明构思下,图4是根据本发明的第三实施例的说话人认证的验证装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,本实施例的说话人认证的验证装置400包括:测试语音输入单元401,用于输入说话人说出的包含密码的测试语音;声学特征向量序列提取单元402,用于从上述输入的测试语音提取声学特征向量序列;匹配路径获得单元403,用于获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;匹配得分计算单元404,用于考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算上述获得的匹配路径的匹配得分;以及比较单元405,用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
在本实施例中,由进行验证的用户利用测试语音输入单元401输入包含密码的测试语音。其中,密码是用户在注册阶段设定的用于验证的特定短语或发音序列。
在本实施例中,声学特征向量序列提取单元402从测试语音输入单元401输入的测试语音提取声学特征向量序列。本发明对于表示声学特征的方式并没有特别的限制,可以采用例如,MFCC(Mel-scale FrequencyCepstral Coefficients,梅尔倒频谱系数)、LPCC(Linear PredictionCepstrum Coefficient,线性预测倒谱系数)或者其它基于能量、基音频率或小波分析等得到的各种系数等,只要是能够表现说话人的个人语音特点即可;但是,应当与在注册阶段用于表示声学特征的方式相对应。
在本实施例中,匹配路径获得单元403对声学特征向量序列提取单元402提取出的声学特征向量序列与注册说话人所注册的说话人模板进行匹配,获得最优匹配路径。具体地,对于HMM模型,可以利用概率进行匹配,具体细节参见上述参考文献1。对于DTW模型,可以采用DTW算法进行匹配,下面参考图3详细描述DTW算法。
图3示出了测试语音和说话人模板的DTW匹配实例。如图3所示,横轴为说话人模板的帧节点,纵轴为测试语音的帧节点。在进行DTW匹配时,计算说话人模板的一个帧节点与对应的测试语音的帧节点和其相邻的帧节点之间的节点距离,选择节点距离最小的测试语音的帧节点作为与说话人模板的所述帧节点相对应的帧节点。重复上述步骤,找出与说话人模板的每个帧节点相对应的输入语音的帧节点,从而获得最优匹配路径。应该理解,本实施例的方法并不限于HMM模型和DTW模型,只要能够获得声学特征向量序列提取单元402提取出的声学特征向量序列与说话人模板的最优匹配路径即可。
本实施例中的说话人模板是利用说话人认证的注册方法生成的说话人模板,其中至少包含与密码语音对应的声学特征和分辨阈值。在此,对说话人认证的注册过程进行简要描述。首先,输入说话人说出的包含密码的语音。接着,从输入的密码语音提取声学特征。然后,生成说话人模板。为了提高说话人模板的质量,可以采用多个训练语音来构建一个说话人模板。首先选定一个训练语音作为初始模板,然后用DTW的方法将第二个训练语音与之时间对齐,并用两段语音中相对应的特征向量的平均来生成一个新的模板,然后再将第三个训练语音与新模板时间对齐,如此循环直到所有的训练语音都结合到一个独立的模板中,即所谓的模板合并。详细内容可以参考W.H.Abdulla、D.Chow和G.Sin发表的文章“Cross-wordsreference template for DTW-based speech recognition systems”(IEEETENCON 2003,pp.1576-1579)。
此外,在说话人认证的注册过程中,说话人模板中包含的分辨阈值可以如下确定。首先,通过采集大量说话人和他人对同一密码发音的语音数据,分别与训练出的说话人模板进行DTW匹配,得到说话人和他人的匹配得分分布。然后,至少可以通过以下三种方法来估计该说话人模板的分辨阈值:
将两条分布曲线的交叉点,即,错误接受率(FAR,False Accept Rate)和错误拒绝率(FRR,False Reject Rate)的和最小处的值作为阈值;
将等误识率(EER,Equal Error Rate)对应的值作为阈值;或者
将错误接受率在某个值(如0.1%)时对应的值作为阈值。
返回到图4,在本实施例中,匹配得分计算单元404考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算匹配路径获得单元403获得的匹配路径的匹配得分。
在本实施例中,匹配得分计算单元404包括权重计算单元4041,用于根据上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,计算在上述匹配路径上每帧的权重。
具体地,在本实施例中,权重计算单元4041给频谱变化速度较快的帧赋予较大的权重,而给频谱变化速度较慢的帧赋予较小的权重,也就是说,在本实施例中,旨在强调那些处于快速频谱变化期间的帧。
具体地,权重计算单元4041包括频谱变化计算单元,用于计算上述测试语音的频谱变化和上述说话人模板的频谱变化,其中,权重计算单元4041根据上述频谱变化计算单元计算出的频谱变化,计算匹配路径上每帧的权重。频谱变化计算单元计算频谱变化的过程和权重计算单元4041利用频谱变化单元计算出的频谱变化计算匹配路径上每帧的权重的过程与第一实施例中通过实例1-3详细描述的过程相同,在此省略其说明。
在权重计算单元4041根据上述测试语音的频谱变化和/或说话人模板的频谱变化,计算出上述匹配路径上每帧的权重之后,匹配得分计算单元404使用权重计算单元4041计算出的匹配路径上每帧的权重,计算匹配路径的匹配得分。具体地,例如,可以将匹配路径上每帧的节点距离乘以该帧的权重,然后相加,并将相加得到的总和作为该匹配路径的匹配得分。
在本实施例中,比较单元405判断匹配得分计算单元404计算出的匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是,则认定上述测试语音是同一说话人说出的密码,验证成功;如果否,则认定验证失败。
通过以上描述可知,本实施例的说话人认证的验证装置400是一种基于频谱变化速度为帧加权的有效装置,该装置计算量低,尤其适用于大多数使用频谱特征的系统。因此,将本实施例的验证装置400应用在与文本相关的说话人验证系统中,可以显著提高系统的性能。
此外,本实施例的基于频谱变化速度为帧加权的装置400和其它现有的加权装置,例如基于音素的装置没有冲突,因此,将它们结合使用可以进一步提高性能。
<第四实施例>
在同一发明构思下,图5是根据本发明的第四实施例的说话人认证的验证装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,本实施例的说话人认证的验证装置500包括:测试语音输入单元501,用于输入说话人说出的包含密码的测试语音;声学特征向量序列提取单元502,用于从上述输入的测试语音提取声学特征向量序列;匹配路径获得单元503,用于考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径;匹配得分计算单元504,用于计算上述获得的匹配路径的匹配得分;以及比较单元505,用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
在第四实施例中,测试语音输入单元501和声学特征向量序列提取单元502分别与第三实施例中的测试语音输入单元401和声学特征向量序列提取单元402相同,在此省略其说明。在测试语音输入单元501输入包含密码的测试语音并且声学特征向量序列提取单元502从测试语音提取出声学特征向量序列之后,匹配路径获得单元503考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,对声学特征向量序列提取单元502提取出的声学特征向量序列与说话人模板进行匹配,获得最优匹配路径。
在本实施例中,匹配路径获得单元503包括权重计算单元5031,用于根据上述测试语音的频谱变化和/或说话人模板的频谱变化,计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重。本实施例的说话人模板与上述实施例中的类似,在此省略其说明。
具体地,在本实施例中,权重计算单元5031给频谱变化速度较快的帧赋予较大的权重,而给频谱变化速度较慢的帧赋予较小的权重,也就是说,在本实施例中,旨在强调那些处于快速频谱变化期间的帧。
具体地,权重计算单元5031包括频谱变化计算单元,用于计算上述测试语音的频谱变化和上述说话人模板的频谱变化,其中,权重计算单元5031根据上述频谱变化计算单元计算出的频谱变化,计算帧对的权重。频谱变化计算单元计算频谱变化的过程和权重计算单元5031利用频谱变化单元计算出的频谱变化计算帧对的权重的过程与第二实施例中通过实例4-5详细描述的过程相同,在此省略其说明。
在本实施例中,在权重计算单元5031根据上述测试语音的频谱变化和/或说话人模板的频谱变化,计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重之后,匹配路径获得单元503使用计算出的帧对的权重,对声学特征向量序列提取单元502提取出的声学特征向量序列与说话人模板进行匹配,获得最优匹配路径。
具体地,对于HMM模型,可以利用概率进行匹配,具体细节参见上述参考文献1。对于DTW模型,可以采用DTW算法进行匹配,具体参见上述第一实施例中参考图3进行的详细描述,在此省略其说明。
在本实施例中,匹配得分计算单元504计算匹配路径获得单元503获得的匹配路径的匹配得分。具体地,例如,可以将匹配路径上每帧的节点距离相加,并将相加得到的总和作为该匹配路径的匹配得分。
在本实施例中,比较单元505判断匹配得分计算单元504计算出的匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是,则认定上述测试语音是同一说话人说出的密码,验证成功;如果否,则认定验证失败。
通过以上描述可知,本实施例的说话人认证的验证装置500是一种基于频谱变化速度为帧加权的有效装置,该装置计算量低,尤其适用于大多数使用频谱特征的系统。因此,将本实施例的验证装置500应用在与文本相关的说话人验证系统中,可以显著提高系统的性能。
此外,本实施例的基于频谱变化速度为帧加权的装置500和其它现有的加权装置,例如基于音素的装置没有冲突,因此,将它们结合使用可以进一步提高性能。
此外,与第三实施例的验证装置400相比,本实施例的验证装置500在搜索最优匹配路径时考虑了测试语音的频谱变化和说话人模板的频谱变化,可以更加准确地搜索到最优匹配路径,从而能够进一步提高验证装置400的性能。
说话人认证系统
<第五实施例>
在同一发明构思下,图6是根据本发明的第五实施例的说话人认证系统的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,本实施例的说话人认证系统600包括:注册装置601,用于注册说话人模板;以及前面所述的说话人认证的验证装置400或500,用于根据注册装置601注册的说话人模板,对测试语音进行验证。由注册装置601生成的说话人模板通过任意的通信方式,例如,网络、内部信道、磁盘等记录媒体等,传递给验证装置400或500。
通过以上描述可知,本实施例的说话人认证系统600是一种基于频谱变化速度为帧加权的有效系统,该系统计算量低,尤其适用于大多数使用频谱特征的系统。因此,将本实施例的说话人认证系统600应用在与文本相关的说话人认证系统中,可以显著提高系统的性能。
此外,本实施例的说话人认证系统600和其它现有的加权系统,例如基于音素的系统没有冲突,因此,将它们结合使用可以进一步提高性能。
以上虽然通过一些示例性的实施例对本发明的说话人认证的验证方法,说话人认证的验证装置以及说话人认证系统进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
优选,在上述说话人认证的验证方法中,上述考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算上述获得的匹配路径的匹配得分的步骤包括:根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算在上述匹配路径上每帧的权重;以及根据上述计算出的权重,计算上述匹配路径的匹配得分。
优选,在上述说话人认证的验证方法中,上述根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算在上述匹配路径上每帧的权重的步骤包括:根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化;以及根据上述计算出的测试语音的频谱变化,计算上述权重。
优选,在上述说话人认证的验证方法中,上述根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化的步骤包括:根据上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述测试语音的频谱变化。
优选,在上述说话人认证的验证方法中,将上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化的步骤包括:根据上述测试语音的声学特征向量序列的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离,计算上述测试语音的频谱变化。
优选,在上述说话人认证的验证方法中,将上述测试语音的声学特征向量序列的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化的步骤包括:根据码本计算上述测试语音的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据码本计算上述测试语音的频谱变化的步骤包括:用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记;根据上述标记对上述测试语音分段,其中使一段中的所有帧都具有相同的标记;以及计算每一段的长度,其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算在上述匹配路径上每帧的权重的步骤包括:根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化;以及根据上述计算出的说话人模板的频谱变化,计算上述权重。
优选,在上述说话人认证的验证方法中,上述根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化的步骤包括:根据上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述说话人模板的频谱变化。
优选,在上述说话人认证的验证方法中,将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述说话人模板在该帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化的步骤包括:
根据上述说话人模板的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离,计算上述说话人模板的频谱变化。
优选,在上述说话人认证的验证方法中,将上述说话人模板的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量为上述说话人模板在该帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化的步骤包括:
根据码本计算上述说话人模板的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据码本计算上述说话人模板的频谱变化的步骤包括:用上述码本中最接近的码字为上述说话人模板的每帧做标记;根据上述标记对上述说话人模板分段,其中使一段中的所有帧都具有相同的标记;以及计算每一段的长度,其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化,计算在上述匹配路径上每帧的权重的步骤包括:根据上述测试语音的频谱变化、上述说话人模板的频谱变化、或者上述测试语音的频谱变化和上述说话人模板的频谱变化的组合的单调递增函数,计算上述匹配路径上每帧的权重。
优选,在上述说话人认证的验证方法中,其中,上述获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径的步骤包括:对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。
优选,在上述说话人认证的验证方法中,上述考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径的步骤包括:根据上述测试语音的频谱变化,计算上述测试语音的声学特征向量序列的每帧的权重;以及考虑上述计算出的权重,对上述提取出的声学特征向量序列与上述说话人模板进行匹配。
优选,在上述说话人认证的验证方法中,上述根据上述测试语音的频谱变化,计算上述测试语音的声学特征向量序列的每帧的权重的步骤包括:根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化;以及根据上述计算出的测试语音的频谱变化,计算上述测试语音的声学特征向量序列的每帧的权重。
优选,在上述说话人认证的验证方法中,上述根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化的步骤包括:根据上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述测试语音的频谱变化。
优选,在上述说话人认证的验证方法中,将上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化的步骤包括:根据码本计算上述测试语音的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据码本计算上述测试语音的频谱变化的步骤包括:用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记;根据上述标记对上述测试语音分段,其中使一段中的所有帧都具有相同的标记;以及计算每一段的长度,其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化,获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径的步骤包括:根据上述说话人模板的频谱变化,计算上述说话人模板的每帧的权重;以及考虑上述计算出的权重,对上述提取出的声学特征向量序列与上述说话人模板进行匹配。
优选,在上述说话人认证的验证方法中,上述根据上述说话人模板的频谱变化,计算上述说话人模板的每帧的权重的步骤包括:根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化;以及根据上述计算出的说话人模板的频谱变化,计算上述说话人模板的每帧的权重。
优选,在上述说话人认证的验证方法中,上述根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化的步骤包括:根据上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述说话人模板的频谱变化。
优选,在上述说话人认证的验证方法中,将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述说话人模板在该帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化的步骤包括:
根据码本计算上述说话人模板的频谱变化。
优选,在上述说话人认证的验证方法中,上述根据码本计算上述说话人模板的频谱变化的步骤包括:用上述码本中最接近的码字为上述说话人模板的每帧做标记;根据上述标记对上述说话人模板分段,其中使一段中的所有帧都具有相同的标记;以及计算每一段的长度,其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选,在上述说话人认证的验证方法中,上述获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径的步骤包括:对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。

Claims (31)

1.一种说话人认证的验证方法,包括:
输入说话人说出的包含密码的测试语音;
从上述输入的测试语音提取声学特征向量序列;
获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;
根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化的单调递增函数,计算在上述匹配路径上每帧的权重;
使用上述计算出的权重,计算上述获得的匹配路径的匹配得分;以及
比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
2.一种说话人认证的验证方法,包括:
输入说话人说出的包含密码的测试语音;
从上述输入的测试语音提取声学特征向量序列;
根据上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化的单调递增函数,计算与上述提取出的声学特征向量序列的每帧和上述说话人模板的每帧对应的帧对的权重;
使用上述计算出的权重,获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径;
计算上述获得的匹配路径的匹配得分;以及
比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
3.一种说话人认证的验证装置,包括:
测试语音输入单元,用于输入说话人说出的包含密码的测试语音;
声学特征向量序列提取单元,用于从上述输入的测试语音提取声学特征向量序列;
匹配路径获得单元,用于获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径;
权重计算单元,用于根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化的单调递增函数,计算在上述匹配路径上每帧的权重;
匹配得分计算单元,用于根据上述权重计算单元计算出的权重,计算上述获得的匹配路径的匹配得分;以及
比较单元,用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
4.根据权利要求3所述的说话人认证的验证装置,其中,上述权重计算单元包括:
频谱变化计算单元,用于根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化,
其中,上述权重计算单元根据上述频谱变化计算单元计算出的测试语音的频谱变化,计算上述权重。
5.根据权利要求4所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述测试语音的频谱变化。
6.根据权利要求5所述的说话人认证的验证装置,其中,将上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量作为上述测试语音在该帧的频谱变化。
7.根据权利要求4所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据上述测试语音的声学特征向量序列的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离,计算上述测试语音的频谱变化。
8.根据权利要求7所述的说话人认证的验证装置,其中,将上述测试语音的声学特征向量序列的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量作为上述测试语音在该帧的频谱变化。
9.根据权利要求4所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据码本计算上述测试语音的频谱变化。
10.根据权利要求9所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记;
根据上述标记对上述测试语音分段,其中使一段中的所有帧都具有相同的标记;以及
计算每一段的长度,其中将每一段的长度度量作为与该段对应的各帧的频谱变化。
11.根据权利要求3或4所述的说话人认证的验证装置,其中,上述权重计算单元包括:
频谱变化计算单元,用于根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化,
其中,上述权重计算单元根据上述频谱变化计算单元计算出的说话人模板的频谱变化,计算上述权重。
12.根据权利要求11所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述说话人模板的频谱变化。
13.根据权利要求12所述的说话人认证的验证装置,其中,将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量作为上述说话人模板在该帧的频谱变化。
14.根据权利要求11所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据上述说话人模板的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离,计算上述说话人模板的频谱变化。
15.根据权利要求14所述的说话人认证的验证装置,其中,将上述说话人模板的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量作为上述说话人模板在该帧的频谱变化。
16.根据权利要求11所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据码本计算上述说话人模板的频谱变化。
17.根据权利要求16所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
用上述码本中最接近的码字为上述说话人模板的每帧做标记;
根据上述标记对上述说话人模板分段,其中使一段中的所有帧都具有相同的标记;以及
计算每一段的长度,其中将每一段的长度度量作为与该段对应的各帧的频谱变化。
18.根据权利要求3-10和12-17中任何一项所述的说话人认证的验证装置,其中,上述匹配路径获得单元用于:
对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。
19.一种说话人认证的验证装置,包括:
测试语音输入单元,用于输入说话人说出的包含密码的测试语音;
声学特征向量序列提取单元,用于从上述输入的测试语音提取声学特征向量序列;
权重计算单元,用于根据上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化的单调递增函数,计算与上述提取出的声学特征向量序列的每帧和上述说话人模板的每帧对应的帧对的权重;
匹配路径获得单元,用于根据上述权重计算单元计算出的权重,获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径;匹配得分计算单元,用于计算上述获得的匹配路径的匹配得分;以及
比较单元,用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
20.根据权利要求19所述的说话人认证的验证装置,其中,上述权重计算单元包括:
频谱变化计算单元,用于根据上述提取出的声学特征向量序列,计算上述测试语音的频谱变化,
其中,上述权重计算单元根据上述计算出的测试语音的频谱变化,计算与上述测试语音的声学特征向量序列的每帧和上述说话人模板的每帧对应的帧对的权重。
21.根据权利要求20所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述测试语音的频谱变化。
22.根据权利要求21所述的说话人认证的验证装置,其中,将上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量作为上述测试语音在该帧的频谱变化。
23.根据权利要求20所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据码本计算上述测试语音的频谱变化。
24.根据权利要求23所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记;
根据上述标记对上述测试语音分段,其中使一段中的所有帧都具有相同的标记;以及
计算每一段的长度,其中将每一段的长度度量作为与该段对应的各帧的频谱变化。
25.根据权利要求19所述的说话人认证的验证装置,其中,上述权重计算单元包括:
频谱变化计算单元,用于根据上述说话人模板的声学特征向量序列,计算上述说话人模板的频谱变化,
其中,上述权重计算单元根据上述计算出的说话人模板的频谱变化,计算与上述测试语音的声学特征向量序列的每帧和上述说话人模板的每帧对应的帧对的权重。
26.根据权利要求25所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离,计算上述说话人模板的频谱变化。
27.根据权利要求26所述的说话人认证的验证装置,其中,将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量作为上述说话人模板在该帧的频谱变化。
28.根据权利要求25所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
根据码本计算上述说话人模板的频谱变化。
29.根据权利要求28所述的说话人认证的验证装置,其中,上述频谱变化计算单元用于:
用上述码本中最接近的码字为上述说话人模板的每帧做标记;
根据上述标记对上述说话人模板分段,其中使一段中的所有帧都具有相同的标记;以及
计算每一段的长度,其中将每一段的长度度量作为与该段对应的各帧的频谱变化。
30.根据权利要求19-29中任何一项所述的说话人认证的验证装置,其中,上述匹配路径获得单元用于:
对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。
31.一种说话人认证系统,包括:
注册装置,用于注册说话人模板;以及
根据权利要求3-30中任何一项所述的说话人认证的验证装置,用于根据注册装置注册的说话人模板,对测试语音进行验证。
CN2007101991923A 2007-12-20 2007-12-20 说话人认证的验证方法和装置以及说话人认证系统 Expired - Fee Related CN101465123B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2007101991923A CN101465123B (zh) 2007-12-20 2007-12-20 说话人认证的验证方法和装置以及说话人认证系统
JP2008321321A JP5106371B2 (ja) 2007-12-20 2008-12-17 話認認証の検証のための方法および装置、話者認証システム
US12/338,906 US20090171660A1 (en) 2007-12-20 2008-12-18 Method and apparatus for verification of speaker authentification and system for speaker authentication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101991923A CN101465123B (zh) 2007-12-20 2007-12-20 说话人认证的验证方法和装置以及说话人认证系统

Publications (2)

Publication Number Publication Date
CN101465123A CN101465123A (zh) 2009-06-24
CN101465123B true CN101465123B (zh) 2011-07-06

Family

ID=40799546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101991923A Expired - Fee Related CN101465123B (zh) 2007-12-20 2007-12-20 说话人认证的验证方法和装置以及说话人认证系统

Country Status (3)

Country Link
US (1) US20090171660A1 (zh)
JP (1) JP5106371B2 (zh)
CN (1) CN101465123B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
US20140188481A1 (en) * 2009-12-22 2014-07-03 Cyara Solutions Pty Ltd System and method for automated adaptation and improvement of speaker authentication in a voice biometric system environment
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
US9263032B2 (en) * 2013-10-24 2016-02-16 Honeywell International Inc. Voice-responsive building management system
US9646613B2 (en) 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US9263033B2 (en) * 2014-06-25 2016-02-16 Google Inc. Utterance selection for automated speech recognizer training
US10395640B1 (en) * 2014-07-23 2019-08-27 Nvoq Incorporated Systems and methods evaluating user audio profiles for continuous speech recognition
CN104320255A (zh) * 2014-09-30 2015-01-28 百度在线网络技术(北京)有限公司 生成账户认证数据的方法、账户认证的方法以及装置
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
US10438593B2 (en) 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN105656880A (zh) * 2015-12-18 2016-06-08 合肥寰景信息技术有限公司 一种网络社区的语音密码智能处理方法
CN105653921A (zh) * 2015-12-18 2016-06-08 合肥寰景信息技术有限公司 一种网络社区的语音密码的设置方法
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
CN107527620B (zh) * 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
KR102489487B1 (ko) 2017-12-19 2023-01-18 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
WO2019176986A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、および記録媒体
US10818296B2 (en) 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
CN109117622B (zh) * 2018-09-19 2020-09-01 北京容联易通信息技术有限公司 一种基于音频指纹的身份认证方法
CN110049270B (zh) * 2019-03-12 2023-05-30 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质
CN109979466B (zh) * 2019-03-21 2021-09-17 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
JPWO2022113218A1 (zh) * 2020-11-25 2022-06-02

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5425127A (en) * 1991-06-19 1995-06-13 Kokusai Denshin Denwa Company, Limited Speech recognition method
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
CN1963917A (zh) * 2005-11-11 2007-05-16 株式会社东芝 评价语音的分辨力、说话人认证的注册和验证方法及装置
CN1963918A (zh) * 2005-11-11 2007-05-16 株式会社东芝 说话人模板的压缩、合并装置和方法,以及说话人认证
CN101051463A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的验证方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6136797A (ja) * 1984-07-30 1986-02-21 松下電器産業株式会社 音声セグメンテ−シヨン法
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
JPH05197397A (ja) * 1992-01-20 1993-08-06 Canon Inc 音声認識方法及びその装置
JP3129164B2 (ja) * 1995-09-04 2001-01-29 松下電器産業株式会社 音声認識方法
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US6539352B1 (en) * 1996-11-22 2003-03-25 Manish Sharma Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation
US6275797B1 (en) * 1998-04-17 2001-08-14 Cisco Technology, Inc. Method and apparatus for measuring voice path quality by means of speech recognition
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
JP3979136B2 (ja) * 2002-03-20 2007-09-19 富士ゼロックス株式会社 認識装置および方法
US7050973B2 (en) * 2002-04-22 2006-05-23 Intel Corporation Speaker recognition using dynamic time warp template spotting
EP1831870B1 (en) * 2004-12-28 2008-07-30 Loquendo S.p.A. Automatic speech recognition system and method
US7490043B2 (en) * 2005-02-07 2009-02-10 Hitachi, Ltd. System and method for speaker verification using short utterance enrollments
US7606707B2 (en) * 2005-09-06 2009-10-20 Toshiba Tec Kabushiki Kaisha Speaker recognition apparatus and speaker recognition method to eliminate a trade-off relationship between phonological resolving performance and speaker resolving performance
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
US8050919B2 (en) * 2007-06-29 2011-11-01 Microsoft Corporation Speaker recognition via voice sample based on multiple nearest neighbor classifiers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5425127A (en) * 1991-06-19 1995-06-13 Kokusai Denshin Denwa Company, Limited Speech recognition method
CN1963917A (zh) * 2005-11-11 2007-05-16 株式会社东芝 评价语音的分辨力、说话人认证的注册和验证方法及装置
CN1963918A (zh) * 2005-11-11 2007-05-16 株式会社东芝 说话人模板的压缩、合并装置和方法,以及说话人认证
CN101051463A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的验证方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开平11-212589A 1999.08.06

Also Published As

Publication number Publication date
JP2009151305A (ja) 2009-07-09
JP5106371B2 (ja) 2012-12-26
US20090171660A1 (en) 2009-07-02
CN101465123A (zh) 2009-06-24

Similar Documents

Publication Publication Date Title
CN101465123B (zh) 说话人认证的验证方法和装置以及说话人认证系统
EP3438973B1 (en) Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium
KR101323061B1 (ko) 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체
US9336781B2 (en) Content-aware speaker recognition
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
US20070219801A1 (en) System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
CN101051463B (zh) 说话人认证的验证方法及装置
TWI475558B (zh) 詞語驗證的方法及裝置
US20060074664A1 (en) System and method for utterance verification of chinese long and short keywords
US20070124145A1 (en) Method and apparatus for estimating discriminating ability of a speech, method and apparatus for enrollment and evaluation of speaker authentication
CN101154380B (zh) 说话人认证的注册及验证的方法和装置
JPH11507443A (ja) 話者確認システム
JP2006235623A (ja) 短い発話登録を使用する話者認証のためのシステムおよび方法
WO2013154805A1 (en) Text dependent speaker recognition with long-term feature
Ozaydin Design of a text independent speaker recognition system
US7509257B2 (en) Method and apparatus for adapting reference templates
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Selvan et al. Speaker recognition system for security applications
CN1963918A (zh) 说话人模板的压缩、合并装置和方法,以及说话人认证
KR100673834B1 (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
Thakur et al. Speaker authentication using gmm-ubm
Nair et al. A reliable speaker verification system based on LPCC and DTW
Srinivas LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system
Yang et al. User verification based on customized sentence reading

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110706

Termination date: 20161220