CN101246686A - 连续二次贝氏分类法辨认相似国语单音的方法及装置 - Google Patents
连续二次贝氏分类法辨认相似国语单音的方法及装置 Download PDFInfo
- Publication number
- CN101246686A CN101246686A CNA2007100802727A CN200710080272A CN101246686A CN 101246686 A CN101246686 A CN 101246686A CN A2007100802727 A CNA2007100802727 A CN A2007100802727A CN 200710080272 A CN200710080272 A CN 200710080272A CN 101246686 A CN101246686 A CN 101246686A
- Authority
- CN
- China
- Prior art keywords
- tone
- unknown
- ijl
- lpcc
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明是用两次贝氏分类法辨认国语相似单音,第一次用贝氏分类法先找出一个和未知单音最相似的M个已知单音(top M candidates),此M个相似单音包含该未知单音机率极高。第二次用比较精密贝氏分类法从M个相似已知单音找出此未知单音。一个单音音波的长短随发音而异。单音音波是一个随时间作非线性变化的系统,因此它有一种随时间作非线性变化的动态特性,即使同一人发同样的音也是一样。只要人类听懂是相同的单音,相同单音音波有一连串相同的语音特征。本发明是根据此非线性动态特性及很多极难分辨的相似单音,用统计自然导出一套语音贝氏辨认系统。
Description
技术领域
国语相同或相似单音非常多,造成辨认单音困难,尤其男女发音及发音时生理、心理状态不同,同一单音,发出声音,变化差异很大,还有省籍及各地人发音的声调,即使同一单音,会发出很多不同相似单音。本发明是将未知单音的相似已知声音,用连续二次贝氏分类法,在相似已知单音中,找出真正未知单音。详细地说,本发明语音辨认系统包含E个等长的弹性框,没有滤波器,不重叠,框住长短不等的单音音波,将音波正常化并转换成E个线性预估编码倒频谱(LPCC)向量。先用简易贝氏分类法(Bayes decision rule)找出未知单音的M个最相似已知单音。再用精密贝氏分类法将未知单音从M个已知相似单音找出。音波正常化及抽取特征简单、省时,辨认快又准确,辨认范围广,发音快慢均可用弹性框正常化后辨认。
背景技术
单音发音时,它的发音用音波表示。音波是一种随时间作非线性变化的系统,一个单音音波内含有一种动态特性,也随时间作非线性连续变化。相同单音发音时,有一连串相同动态特性,随时间作非线性伸展及收缩,但相同动态特性依时间排列秩序一样,但时间不同。相同单音发音时,将相同的动态特性排列在同一时间位置上非常困难。更因相似单音特多,造成辨认更难。
一个计算机化语言辨认系统,首先要抽取声波有关语言信息,也即动态特性,过滤和语言无关的杂音,如人的音色、音调,说话时心理及生理及情绪和语音辨认无关先删去。然后再将相同单音的相同特征排列在相同的时间位置上。此一连串的特征用一等长系列特征向量表示,称为一个单音的特征模型。目前语音辨认系统要产生大小一致的特征模型太复杂,且费时。相同单音的相同特征很难排列在同一时间位置上,导致比对辨认困难。
一般语音辨认系统有三个主要工作:抽取特征,特征正常化(特征模型大小一致,且相同单音的相同特征排列在同一时间位置)及未知单音辨认。一个单音声波特征常用有下列几种:能量(energy),零横过点数(zerocrossings),极值数目(extreme count),颠峰(formants),线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC),其中以LPCC及MFCC是最有效,并普遍使用。LPCC是代表一个单音最可靠,稳定又准确的语言特征。它用线性回归模式代表单音音波,以最小平方估计法计算回归系数,其估计值再转换成倒频谱,就成为LPCC。而MFCC是将音波用傅氏转换法转换成频率。再根据梅尔频率比例去估计听觉系统。根据学者[6]用动态时间扭曲法(DTW),MFCC特征比LPCC特征辨认率要高。但经过多次语音辨认实验(包含本人前发明),用贝氏分类法,LPCC特征辨认率比MFCC特征要高,且省时。
至于语言辨认,已有很多方法采用。有动态时间扭曲法(dynamictime-warping),向量量化法(vector quantization)及隐藏式马可夫模式法(HMM)。如果相同的发音在时间上的变化有差异,一面比对,一面将相同特征拉到同一时间位置。辨认率会很好,但将相同特征拉到同一位置很困难并扭曲时间太长,不能应用。向量量化法如辨认大量单音,不但不准确,且费时。最近HMM辨认方法不错,但方法繁杂,太多未知参数需估计,计算估计值及辨认费时。最近用贝氏分类法[2],以相同数据库,将各种长短一系列LPCC向量压缩成相同大小的分类模型,辨认结果比HMM方法好[2,5],但压缩过程复杂费时,且相同单音很难将相同特征压缩到相同时间位置,对于相似单音,很难辨认。
本发明语音辨认系统针对上述缺点,从学理方面,根据音波有一种语音特征,随时间作非线性变化,自然导出一套抽取语音特征方法。将一个单音音波先正常化再转换成一个足以代表该单音的大小相等特征模型,并且相同单音在它们特征模型内相同时间位置有相同特征。不需要人为或实验调节系统内的未知参数及门坎。用简易贝氏分类法,即可将未知单音分类模型和数据库内已知单音标准模型比对,不需要再压缩,扭曲或寻找相同的特征来比对。所以本发明语音辨认系统,能快速完成特征抽取,特征正常化及辨认。本系统为了提高单音辨认率,连续用二次贝氏分类法将很难辨认的相似单音辨认出来,大大提高整体国语单音辨识率。辨认率高,应用广,用弹性框可以辨认极短或极长单音音波,对英语极短音节辨认也有效。
发明内容
(1)本发明提供一种语音辨认方法及装置。它能将不具语音音波删除。
(2)本发明提供一种单音音波正常化及抽取特征方法。它使用E个相等弹性框,不重叠,没有滤波器,能依单音音波长短自由调节含盖全部波长,能将单音音波内一系列随时间作非线性变化的动态特性转换成一个大小相等的特征模型,并且相同单音音波的特征模型在相同时间位置上有相同特征。可以及时辨认,达到计算机实时辨认效果。
(3)本发明提供一种简易有效贝氏辨认未知单音方法。认错机率达到最小,计算少,辨认快及辨识率高。
(4)本发明提供一种抽取单音特征方法。单音音波有一种随时间作非线性变化的动态特性。本发明用随时间作线性变化的回归模型估计随时间作非线性变化的音波。产生的回归未知系数的最小平方估计值(LPC向量)。
(5)本发明使用所有具有语音音波(音波信号点)。用较少数E=12个相等弹性框,不重叠含盖所有信号点特征。不因为一个单音音波太短,删去该单音,也不因为太长,删去或压缩部分信号点。只要人类听觉能辨别此单音,本发明即可将该单音抽取特征。所以本发明语音辨认系统应用每一个具有语音的信号点,可以尽量抽取语音特征。因E=12个弹性框不重叠,框数少,大大减少特征抽取及计算LPCC时间。
(6)本发明语音辨认系统可以辨认讲话太快或讲话太慢的单音。讲话太快时,单音音波很短,尤其对于英语音节发音,本发明的弹性框长度可以缩小,仍然用相同数E个等长的弹性框含盖短音波。产生E个LPCC向量。只要该短音人类可辨别,那么该E个LPCC向量可以有效代表该短音的特征模型。讲太慢所发出单音音波较长。弹性框会伸长。所产生E个LPCC向量也能有效代表该长音。
(7)本发明包含一套语音辨认系统。首先由多人发出相同的已知单音,产生多种长短不一的声波。然后用E个相同的弹性框,没有滤波器,不重叠,含盖全部声波,产生一个已知单音的E个LPCC向量多个样本,也即有多个特征模型代表该已知单音。多个特征模型内在相同时间位置上含有相同特征向量,也即每个样本的E个LPCC向量依顺序LPCC向量大致相同。再将特征模型的样本求LPCC平均值及变异数,得到大小一致含有平均值及变异数的矩阵,叫做该已知单音的标准模型,存在数据库中。再用同样方法,将一个未知单音的音波,用E个等长弹性框,没有滤波器,不重叠包含全部音波,产生E个LPCC向量。该E个LPCC向量称为一个未知单音的分类模型。当用简易的贝氏分类法比对未知单音及数据库内一个已知单音时,将分类模型内所有LPCC假设为有独立正常分配的随机变量,它的平均值及变异数用已知单音标准模型内的样本平均数及样本变异数代替。在数据库内计算每一个已知单音标准模型内的平均数与未知单音的分类模型内的LPCC距离,再以已知单音的变异数调整。选择与未知单音M个最相似已知单音,再用第二个贝氏分类法计算每个相似已知单音最靠近未知单音的K个样品的总贝氏距离(mis-categorization risk)。再从M个相似已知单音的总贝氏距离找出一个相似已知单音,它的总贝氏距离达最小,判为未知单音。
用图1及图2说明发明执行程序。图1是表示数据库建立流程。数据库包含所有已知单音的标准模型,表示已知单音的特征。一个已知单音以一个连续音波形式进入接收器20。数化转换器30将连续音波转为一序列音波数化的信号点。先前处理器40有两种删去方法:(1)计算一小时段内信号点的变异数及一般杂音变异数。如前者小于后者,则该小时段不具语音,应删去。(2)计算一小时段内连续两信号点距离总和及一般杂音的总和,如前者小于后者,则该小时段不具语音,应删去。经过先前处理器40之后,得到一序列具有该已知单音信号点。先将音波正常化再抽取特征,将已知单音的全部信号点分成E等时段。每时段组成一个框。一个单音一共有E个等长框50,没有滤波器,不重叠,根据单音全部信号点的长度,E个框长度自由调整含盖全部信号点。所以该框称为弹性框,长度自由伸缩,但E个弹性框长度一样。不像Hamming窗,有滤波器,半重叠,固定长度,不能随波长自由调整。因单音音波随时间作非线性变化,音波含有一个语音动态特征,也随时间作非线性变化。因为不重叠,所以本发明使用,较少(E=12)个弹性框,含盖单音音波,因信号点可由前面信号点估计,用随时间作线性变化的回归模式来密切估计非线性变化的音波。用最小平方法估计回归未知系数。每框内产生一组未知系数最小平方估计值,叫做线性预估编码(LPC向量)。再将LPC向量转换为较稳定LPC倒频谱(LPCC)。一个单音音波内含有一序列随时间作非线性变化的语音动态特征,在本发明内转换成大小相等E个LPCC向量60。为了建立数据库,一个已知单音,由多人发音,以同样转换方法,将多人发音音波转成大小相等的E个LPCC向量多个样本。多个样本的E个LPCC向量代表一个同样已知单音,因此E个LPCC向量依顺序,多个样本的LPCC向量应大致相同,也即在同一时间位置上,多个样本LPCC向量一样。再计算多个样本LPCC的平均值及变异数。这E个LPCC平均值及变异数向量代表一个已知单音的标准特征矩阵,称为该已知单音的标准模型70。此含有样本平均数及变异数的标准模型代表一个已知单音,储存在数据库中80。
图2表示一个未知单音辨认方法流程。当输入一个未知单音到本发明语音辨认系统后,以声音连续音波进入接收器20,由数字转换器30转为一系列音波信号点。再以图1先前处理器40删去不具语音的音波。将音波正常化,抽取特征,将未知单音全部具有语音的信号点分成E等时段,每时段形成一个弹性框50。一共有E个弹性框,没有滤波器,不重叠,自由伸缩含盖全部信号点。在每框内,因信号点可由前面信号估计,用最小平方法求回归未知系数的估计值。每框内所产生的一组最小平方估计值叫做LPC向量。LPC向量有正常分配。再将LPC向量转换较稳定LPC倒频谱,也即LPCC向量。一个未知单音以E个LPCC向量代表特征模型,称为分类模型90,和已知单音标准模型大小一样。如果一个已知单音是此未知单音,它的标准模型的平均值最靠近未知单音分类模型的LPCC。所以本发明的简易贝氏辨认法100,以未知单音的分类模型和数据库每一个已知单音的标准模型比较。如果一个已知单音是该未知单音,为了计算省时,假定未知单音的分类模型内所有LPCC有独立正常分配,它们的平均数及变异数以已知单音标准模型样本平均值及样本变异数估计。先以一个简易贝氏法是计算未知单音的LPCC与已知单音的平均数的距离,再以已知单音变异数调整,所得的值代表该未知单音与一个已知单音相似度。选择与未知单音M个相似度最高已知单音110。再用一个精细的贝氏分类法,计算每个相似已知单音最靠近未知单音K个样品的总贝氏距离(mis-categorization risk)120。从M个相似已知单音找一个相似已知单音,它的总贝氏距离达最小,判为未知单音130。
附图说明
图1及图2说明发明执行程序;
图1是表示数据库建立流程;
图2表示一个未知单音辨认方法流程。
主要组件符号说明
(一)图1的组件符号简单说明:
1.输入已知单音(input known syllables)(1)
2.已知单音以连续音波表示(10)
3.已知单音接收器(Receiver)(20)
4.音波数字化转换器(A/D converter)(30)
5.除去杂音(Delete noise)(40)
6.弹性框正常化音波(Waveform normalization by elasticframes)(50)
7.最小平方法计算LPC倒频谱向量(Computing LPC cepstra)(60)
8.计算已知单音的LPC倒频谱的平均值及变异数(70)
9.建立已知单音数据库包含所有已知单音LPCC平均值及变异数的标准模型(80)
(二)图2的组件符号简单说明:
1.输入未知单音(input unknown syllable)(2)
2.未知单音以连续音波表示(10)
3.单音接收器(Receiver)(20)
4.音波数字化转换器(A/D converter)(30)
5.除去杂音(Delete noise)(40)
6.弹性框正常化音波(Waveform normalization by elasticframes)(50)
7.最小平方法计算LPC倒频谱向量(Computing LPC cepstra)(60)
8.用未知单音的LPCC表示未知单音分类模型(90)
9.由图1已知单音数据库取得平均值及变异数(80)
10.比较已知单音标准模型及未知单音分类模型(Comparecategorizing pattern with all standard patterns)(100)
11.第一个贝氏分类法选择未知单音的M个最相似的已知单音(Selecting top M candidates for the unknown syllable by the Bayes rule)(110)
12.第二个贝氏分类法(包含距离平方分类法)计算每个相似已知单音最靠近未知单音的K个样品的总贝氏距离(mis-categorization risk)(120)
13.第二个贝氏分类法(包含距离平方分类法)选择一个相似已知单音,它的K个样品总贝氏距离达最小,判为未知单音。(130)
具体实施方式
(1)一个单音输入语音辨认系统后,将单音连续音波转换一系列数化音波信号点(signal sampled points)。再删去不具语音音波信号点。本发明提供二种方法:一是计算一小时段内信号点的变异数。二是计算该时段内相邻二信号点距离的总和。理论上,第一种方法比较好,因信号点的变异数大于杂音变异数,表示有语音存在。但在本发明辨认单音时,两种方法辨认率一样,但第二种省时。
(2)不具语音信号点删去后,剩下信号点代表一个单音全部信号点。先将音波正常化再抽取特征,将全部信号点分成E等时段,每时段形成一个框。一个单音共有E个等长的弹性框,没有滤波器,不重叠,自由伸缩,含盖全部信号点。弹性框内信号点随时间作非线性变化,很难用数学模型表示。因为信号点与前面信号点有线性关系[1,3,4],可用随时间作线性变化的回归的模型估计此非线性变化的信号点。信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:
在(1)式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目。Durbin的循环公式[1,3,4]求最小平方估计值,此组估计值叫做LPC向量。求框内信号点的LPC向量方法详述如下:
以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:
求回归系数使平方总和E1达最小。对每个未知回归系数ai,i=1,...,P,求(2)式的偏微分,并使偏微分为0,得到P组正常方程式:
展开(2)式后,以(3)式代入,得最小总平方差EP
(3)式及(4)式转换为
在(5)及(6)式中,用N表示框内信号点数,
用Durbin’s循环快速计算LPC向量如下:
E0=R(0) (8)
(8-12)公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,(LPC向量)如下:
再下列公式将LPC向量转换较稳定LPC倒频谱(LPCC)向量a′j,j=1,...,P,
一个弹性框产生一个LPCC向量(a′1,...,a′P)。根据本发明语音辨认系统,用P=12,因最后的LPCC几乎为0。一个单音以E个LPCC向量表示特征,也即一个含E×P个LPCC的矩阵表示一个单音特征。
(3)一个已知单音由多人发音,产生多个样本的E×P矩阵,同时代表该已知单音,求多个LPCC样本平均值及变异数,得到一个E×P矩阵内含LPCC样本平均值及样本变异数。该矩阵称为该已知单音的标准特征,或标准模型。
(4)同样方法以(8-15)式计算出一个未知单音音波的E个LPCC向量,有同样大小E×P个LPCC的矩阵,叫做未知单音的分类模型。
(5)在图2中,语音辨认器100,收到一个未知单音的分类模型,一个E×P LPCC的矩阵。用X={Xjl},j=1,...,E,l=1,...,P,表示未知单音特征模型。在与一个已知单音ci,i=1,...,m,比对时。为了快速计算比对值,假定{Xjl}有E×P个独立正常分配,它的平均数及变异数(μijl,σijl 2),以已知单音标准模型内的样本平均值及样本变异数估计。以f(x|ci)表示X的条件密度函数。以决策理论说明贝氏分类法如下[2]:假设数据库一共有m个已知单音的标准模型。以θi,i=1,...,m,表示单音ci,i=1,...,m,出现的机率,也即先前机率,则 以d表示一个决策方法。定义一个简单损失函数(loss function),也即d的判错机率(misclassification probability)如下:如决策方法d判错一个未知单音,则损失函数L(ci,d(x))=1。如果d判对一个未知单音,则无损失L(ci,d(x))=0。辨认方法如下:以Γi,i=1,...,m,表示X=x矩阵值属于已知单音ci的范围。也即X在Γi,d判未知单音属于已知单音ci。d判错平均机率为
在(16)中,τ=(θ1,...,θm),Γi c是Γi以外范围。以D表示所有语音辨认方法,也即划分m个已知单音的范围所有方法。在D中找一个辨认方法dτ使它的平均认错机率(16)达到最小,以R(τ,dτ)表示
满足(17)式的辨认方法dτ叫做与先前机率τ有关的贝氏分类法[2]。可用下列表示:
dτ(x)=ci if θif(x|ci)>θjf(x|cj) (18)
在(18)式中,j=1,...,m,j≠i,也即属于已知单音ci的范围是对所有j≠i,Γi={x|θif(x|ci)>θjf(x|cj)}。如所有已知单音出现机率一样,则贝氏分类法和最大机率法一样。
贝氏分类法(18)辨认一个未知单音时,先计算所有X的条件密度函数f(x|ci),i=1,...,m,
在(19)中,i=1,...,m,(已知单音总数)。为了计算方便,将(19)式取对数,并删去常数,得
在(20)式中,如果变异数σijl 2相等,则贝氏分类法(20)式变成距离平方分类法。贝氏分类法(18)变成对每个已知单音ci,计算l(ci)值(20),l(ci)也称为未知单音和已知单音ci的相似度,或贝氏距离(mis-categorizationrisk)。在(20)式中,x={xil},j=1,...,E,l=1,...,P,是未知单音分类模型内LPCC值,{μijl,σijl 2}用已知单音的标准模型内的样本平均数及样本变异数估计。第一个贝氏分类法辨认一个未知单音的分类模型x={xjl}是在数据库内选择M个已知单音c′i,...,c′M,它的l(c′i)值达M个最小,判为该未知单音的M个相似已知单音。从M个相似已知单音c′i,...,c′M中,用第二个贝氏分类法(包含距离平方分类法)从M个相似已知单音找出未知单音。以 i=1,...,M,k=1,...,Ki代表第i个相似已知单音的第k个样品的LPCC的E×P矩阵。假如第i个相似单音有Ki个样品(training samples),在第二次贝氏分类法(包含距离平方分类法)中,未知单音LPCC矩阵x={xjl}和它的第i个相似单音的全部Ki个样品的LPCC矩阵 比对,那么在此分类法中,以 作为平均值。如果未知单音x={xjl}是属于第i个相似单音,X的平均值是第k个样品 矩阵,则X的变异数(variance)是
在(21)式中,Xijl是第i个相似单音LPCC的矩阵。但此X的条件变异数(21)无法计算,因此用第i个已知单音变异数代替,即σijl 2。在(21)式中,X={Xjl}and Xi={Xile}假定同属同样单音但是不同样品。因此未知单音X和第i个相似单音的第k个样品 比对时,X的变异数仍是数据库80中第i个单音的变异数,即σije 2。用第二次贝氏分类法未知单音X比对第i个相似单音的第k个样品 时,贝氏距离(mis-categorization risk)(20)再以下式表示
同样在(22)式中,如果变异数σijl 2相等,则贝氏分类法(22)式变成距离平方分类法。在(22)中,因用ln值,l(xi k)可能会是负数。在Ki个l(xi k)中,求K个最小值的总和,叫做未知单音和第i个相似已知单音的总贝氏距离(也叫做总mis-categorization risk或未知单音对第i个相似已知单音的相似度),距离愈小,相似度愈大。在第二次贝氏分类法中,在M个相似已知单音找一个相似已知单音,它的总贝氏距离达最小,判为此未知单音。第二次贝氏分类法有点像k-nn classifier,但本发明用的是贝氏距离(22)。在第二次贝氏分类法(包含距离平方分类法)中,每个相似单音内,本实验只用最靠近(依贝氏距离)未知单音K=5个样品,因在该相似单音用太多(K)的样品,可能会夹有一些不是很好的样品(不能代表此相似单音)。如果只取一、二个,也可能太危险,可能未知单音距其它相似单音(不是未知单音)少数一、二个样品很近,导致判为其它相似单音。相似单音非常难辨认,所以第二次贝氏分类法要非常准确。不然会将第一次贝氏分类法判对的未知单音(第一顺位相似已知单音)会被第二次贝氏分类法判错。辨识率不但不增,反而下降。理论上,每个相似单音c′i的样品数Ki愈多愈好。甚至于可以包含发音不清晰(如乡土音)的单音,因第二次贝氏分类法可以有更多机会选择K个更好的样品(更“靠近”未知单音),如果样品数Ki太多,计算l(xi k)值费时。另外第二次贝氏分类法是针对所有相似单音样品计算l(xi k)值,如果对未知单音取太多相似单音(M很大),计算及辨认费时。在本实验中,M=10已足够。
(6)为了证实本发明语音辨认系统辨识率高,适用范围广,抽取特征及辨认方法快速且省时,本发明执行多个语音辨认实验。首先建立一个日常用的国语单音数据库。本单音数据库是从中央研究院购买,质量差,又不完整。表面上共有493个不同国语单音。每个单音样品数不一,很多只有一、二个样品,有的是空的,甚至于多个样品包含两个单音,有的多达90个样品。由多人发音,每人只发音一次。使用贝氏分类法时,每个国语发音至少要有6个样品。任何一个样品作测试时,其它样品作training samples(每单音至少要有五个training samples求平均值及变异数)。只有361个国语单音合格,总共4155样品。品质不是很好。依质量好坏(学生听力测试)分成三类,最好一类有233单音(共有3152样品)。第二类有257单音(共有3302样品)。第三类是原有361单音(共有4155样品)。测试一个样品,其它样品(trainingsamples)作为计算平均值及变异数。储藏在数据库80中。测试样品和计算平均值及变异数的样品完全分开。三类单音辨认结果放在表二。在表二内,第一次贝氏分类法依相似度l(ci)(20)大小找出与未知单音M(=5,10,20)个最相似已知单音。在表一有三个测试单音的10个最相似单音。在第二次贝氏分类法中,相似单音的样品全部使用第三类全部样品。因样品较多,第二次贝氏分类法有更好机会找M=5,10,20最好样品。在表二中,第一次贝氏分类法辨认第一类单音时,辨认率是71.26%(以相似已知单音第一顺位认定)。第二次贝氏分类法辨认每个未知单音(测试样品)的20个已知相似单音,辨认率增加到94.96%。有768样品是被第二次贝氏分类法才能辨认正确。也有21测试样品,本来是被第一次贝氏分类法判对,但第二次被判错。由本国语单音测试结果,E=12,P=12,K=5最好,(最省时及辨识率最高)。主因E个弹性框不重叠,E=12能充分抽取一个单音特征,如E太大,增加辨识能力很少,很费时。但因中央研究院数据库质量不是很好,所以每个相似单音只取少数(K=5)最好的样品为宜。
表1.第一次贝氏分类法得到未知单音的10个最相似已知单音。依和未知单音相似度大小l(ci)顺序如下:
注.表1内,”俩”和”两”应当为同一国语单音,这是由中央研究院提供数据库。
表2.第二次贝氏分类法辨认未知单音的M个相似单音
注:max top5是在5个相似单音中一共包含3337未知单音。
第一次贝氏分类法判错,但第二次贝氏分类法判对有1026测试样品。
第一次贝氏分类法判对,但第二次贝氏分类法判错有113测试样品。
第一次贝氏分类法判错,但第二次贝氏分类法判对有820测试样品。
第一次贝氏分类法判对,但第二次贝氏分类法判错有29测试样品。
第一次贝氏分类法判错,但第二次贝氏分类法判对有768测试样品。
第一次贝氏分类法判对,但第二次贝氏分类法判错有21测试样品。
参考论文(Other Publications)
1.Makhoul,John,Linear Prediction:A tutorial review,Proceedings of IEEE,63(4)(1975).
2.Li,Tze Fen,Speech recognition of mandarin monosyllables,PatternRecognition,36(2003)2713-2721.
3.Durbin,J,The fitting of time-series models,Rev.Inst.Int.Statist.,28(3)(1960)233-243.
4.Rabiner,Lawrence and Juang,Biing-Hwang,Fundamentals of SpeechRecognition,Prentice Hall PTR,Englewood Cliffs,New Jersey,1993.
5.Chen,Y.K.,Liu,C.Y.,Chiang,G.H.and Lin,M.T.,The recognition ofmandarin monosyllables based on the discrete hidden Markov model,The1990 Proceedings of Telecommunication Symposium,Taiwan,1990,133-137.
6.Davis,S.B.and Mermelstein,P.,Comparison of parametricrepresentations for monosyllabic word recognition in continuously spokensentences,IEEE Trans.Acoustic.Speech Signal Process.ASSP-28(4),(1980)357-366.
7.Li,Tze Fen,Chang,S.C.and Lee,C.B.,A simple statistical speechrecognition of mandarin monosyllables,Applied Math.Comput.,117,(2006)644-651.
Claims (8)
1. 一个语音辨认系统,其特征在于包含:
(1)一个先前处理器删去不具语音音波信号点或杂音;
(2)一个已知单音音波正常化及抽取特征方法:用弹性框将音波正常化并转换成大小相等的LPC倒频谱LPCC特征矩阵,并将相同单音音波转换成特征相同的矩阵;
(3)一个已知单音特征矩阵多个样本转换成一个标准模型,储藏在数据库,标准模型含有该已知单音特征矩阵的样本平均数及变异数;
(4)一个未知单音音波正常化及抽取特征方法:将音波正常化并转换成大小与已知标准模型大小相等的特征矩阵,称为未知单音分类模型,内含有线性预估编码倒频谱LPCC;
(5)一个简化贝氏分类法:将未知单音分类模型与数据库所有已知单音标准模型比较,找M个与未知单音最相似的已知单音c′i,i=1,...,M判为未知单音的M个相似已知单音(找M个最小l(ci)(20)的值);
(6)在每个相似已知单音c′i,计算全部样品(xi k)的l(xi k),i=1,...,M,k=1,...,Ki,(22)的值,取最小K个样品的l(xi k)值的总和,叫做此相似已知单音与未知单音总贝氏距离或mis-categorizationrisk,在M个相似已知单音找一个最小总贝氏距离的相似已知单音判为未知单音。
2. 根据权利要求1所述的语音辨认系统中,其特征在于步骤(1)删去不具语音的音波或杂音,包含两种方法:
(a)在一小时段内信号点,计算信号点的变异数及一般杂音的变异数:如信号点的变异数小于杂音变异数,则删去该时段;
(b)在一小时段内信号点,计算相邻两信号点距离总和和一般杂音相邻两信号点距离总和:如前者小于后者则删去该时段。
3. 根据权利要求1所述的语音辨认系统中,其特征在于步骤(2)包含已知单音音波正常化及抽取大小一致的特征矩阵,步骤如下:
(a)一个均等分一个已知单音音波信号点方法,为了用线性变化的回归模式密切估计非线性变化的音波,将音波全长分成E等时段;每时段形成一个弹性框;一个单音共有E个弹性框,没有滤波器,不重叠,可以自由伸缩含盖全长音波;不是固定长度的Hamming窗;
(b)每框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音波;
(c)用Durbin’s循环方式(8-13)求回归系数最小平方估计值,叫做线性预估编码向量,再用(14-15)式转换LPC向量为稳定的LPC倒频谱LPCC向量;
(d)用E个LPCC向量表示一个单音的E×P LPCC特征矩阵。
4. 根据权利要求1所述的语音辨认系统,其特征在于步骤(3)又包含一个计算已知单音的标准模型方法,步骤如下:
(a)一个已知单音,由多人发音,产生长短不一的音波;因代表相同已知单音,长短不一的音波包含一种随时间作非线性变化但相同动态特征,只是时间位置不同;
(b)用E个弹性框将该单音长短不一的音波调整并转换成多个LPCC特征大致相同的矩阵样本;再求LPCC样本平均数及样本变异数,将样本平均数及样本变异数用二个E×P矩阵表示,称为该单音标准模型。
5. 根据权利要求1所述的语音辨认系统中,其特征在于步骤(4)又包含未知单音音波正常化并抽取E个LPCC特征向量,成为未知单音的分类模型,其步骤如下:
(a)将未知单音音波分成E等时段,每时段组成一个弹性框,一个未知单音有E个等长弹性框,没有滤波器,不重叠,自由伸缩含盖全部音波信号点;
(b)每个弹性框内,用一个随时间作线性变化的回归模式估计随时间作非线性变化的音波;
(c)用Durbin’s循环方式(8-13)计算回归系数最小平方估计值LPC;
(d)再将LPC向量用公式(14-15)转换成稳定LPC倒频谱LPCC量;
(e)用E个LPCC向量,作为该未知单音的分类模型。
6. 根据权利要求1所述的语音辨认系统中,其特征在于步骤(5)包含一个简易贝氏辨认未知单音方法,其步骤如下:
(a)一个未知单音的特征是分类模型,用一个E×P LPCC矩阵X={Xjl},j=1,...,E,l=1,...,P,表示;为了快速辨认,E×P个LPCC{Xjl}假定是E×P个独立随机变量,有正常分配。如果未知单音和一个已知单音ci,i=1,...,m,比对时,则{Xjl}的平均数及变异数(μijl,σijl 2)用该已知单音标准模型内样本平均数及样本变异数估计;那么X的条件密度函数是(19)式中f(x|ci),以下式表示:
在(23)式中,X={Xij}是未知单音的分类模型的LPCC,但(μijl,σijl 2)可用已知单音ci标准模型内的样本平均数及样本变异数估计;
(b)简易贝氏分类法(18)是针对数据库中找一个已知单音ci最像此未知单音X,一个已知单音ci对未知单音相似度以(23)式中f(x|ci)大小表示;
(c)为快速辨认,用对数化简(23)中条件密度函数f(x|ci),并删去不必计算的常数,得
在(24)式中,如果σijl相等,则(24)式叫做距离平方分类法;
(d)对每一个已知单音ci,i=1,...,m,计算(24)式中l(ci)值。
(e)在数据库中,选择M个已知单音c′i,i=1,...,M,它的l(c′i)值是M个最小,判为该未知单音的M个相似已知单音。
7. 根据权利要求1语音辨认系统中,其特征在于步骤(6)包含第二个贝氏辨
认未知单音的M个相似已知单音方法,其步骤如下:
(a)在第二次贝氏分类法中,以c′1,...,c′M表示一个未知单音的M个相似已知单音;以xi k,i=1,...,M,k=1,...,Ki,表示第i个相似已知单音的第k个样品;以 j=1,...,E,l=1,...,P,表示该样品的LPCC的E×P矩阵;如果未知单音X和该样品 比对时,则X={Xjl},假定属于第i个已知相似单音c′i,它的平均值及变异数是(xijl k,σijl 2);则未知单音X和该样品 的相似度以l(xi k)(22)计算,再用下式表示;对k=1,...,Ki,
(b)计算第i个相似单音c′i的所有Ki个样品的l(xi k)值,以K个最小l(xi k)的值的总和,可能为负数,因是ln值,表示未知单音及第i个相似已知单音的总贝氏距离或相似度;总贝氏距离愈小,相似度愈大;
(c)从未知单音的M个相似已知单音选一个相似已知单音,它对未知单音的总贝氏距离达最小,判为此未知单音;
(d)由辨认测试结果,E=12,P=12,K=5,为最好,这是因为弹性框不重叠,E=12个弹性框能充分抽取一个单音特征。
8. 根据权利要求1语音辨认方法,其特征在于步骤(1)更包含下列:
(a1)一个单音音波接收器接收单音连续音波;
(a2)一个数字转换器将连续音波转换为一系列数化信号点,步骤
(a1)-(a2)执行在第1项步骤(1)的前。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100802727A CN101246686A (zh) | 2007-02-15 | 2007-02-15 | 连续二次贝氏分类法辨认相似国语单音的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100802727A CN101246686A (zh) | 2007-02-15 | 2007-02-15 | 连续二次贝氏分类法辨认相似国语单音的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101246686A true CN101246686A (zh) | 2008-08-20 |
Family
ID=39947103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007100802727A Pending CN101246686A (zh) | 2007-02-15 | 2007-02-15 | 连续二次贝氏分类法辨认相似国语单音的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101246686A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540168B (zh) * | 2008-03-17 | 2011-06-15 | 黎自奋 | 一种能够同时辨认英语及汉语的辨认方法 |
CN102479507A (zh) * | 2010-11-29 | 2012-05-30 | 黎自奋 | 可辨认任何语言句子的方法 |
CN102034474B (zh) * | 2009-09-25 | 2012-11-07 | 黎自奋 | 语音辨认所有语言及用语音输入单字的方法 |
CN103582913A (zh) * | 2011-04-28 | 2014-02-12 | 杜比国际公司 | 有效内容分类及响度估计 |
-
2007
- 2007-02-15 CN CNA2007100802727A patent/CN101246686A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540168B (zh) * | 2008-03-17 | 2011-06-15 | 黎自奋 | 一种能够同时辨认英语及汉语的辨认方法 |
CN102034474B (zh) * | 2009-09-25 | 2012-11-07 | 黎自奋 | 语音辨认所有语言及用语音输入单字的方法 |
CN102479507A (zh) * | 2010-11-29 | 2012-05-30 | 黎自奋 | 可辨认任何语言句子的方法 |
CN102479507B (zh) * | 2010-11-29 | 2014-07-02 | 黎自奋 | 可辨认任何语言句子的方法 |
CN103582913A (zh) * | 2011-04-28 | 2014-02-12 | 杜比国际公司 | 有效内容分类及响度估计 |
US9135929B2 (en) | 2011-04-28 | 2015-09-15 | Dolby International Ab | Efficient content classification and loudness estimation |
CN103582913B (zh) * | 2011-04-28 | 2016-05-11 | 杜比国际公司 | 有效内容分类及响度估计 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tiwari | MFCC and its applications in speaker recognition | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
CN101030369B (zh) | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Dubuisson et al. | On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination | |
Jin et al. | Overview of front-end features for robust speaker recognition | |
CN101246686A (zh) | 连续二次贝氏分类法辨认相似国语单音的方法及装置 | |
Tawaqal et al. | Recognizing five major dialects in Indonesia based on MFCC and DRNN | |
Singh et al. | High level speaker specific features modeling in automatic speaker recognition system. | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
Shahnawazuddin et al. | Improving automatic speech recognition by classifying adult and child speakers into separate groups using speech rate rhythmicity parameter | |
CN101281746A (zh) | 一个百分之百辨认率的国语单音与句子辨认方法 | |
Liu et al. | An overview of speaker recognition | |
Faycal et al. | Comparative performance study of several features for voiced/non-voiced classification | |
Grewal et al. | Isolated word recognition system for English language | |
Arun et al. | Malayalam speech to text conversion using deep learning | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
Mathew et al. | Significance of feature selection for acoustic modeling in dysarthric speech recognition | |
US20120116764A1 (en) | Speech recognition method on sentences in all languages | |
Li et al. | Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080820 |