CN1159704C - 信号分析装置 - Google Patents
信号分析装置 Download PDFInfo
- Publication number
- CN1159704C CN1159704C CNB951905473A CN95190547A CN1159704C CN 1159704 C CN1159704 C CN 1159704C CN B951905473 A CNB951905473 A CN B951905473A CN 95190547 A CN95190547 A CN 95190547A CN 1159704 C CN1159704 C CN 1159704C
- Authority
- CN
- China
- Prior art keywords
- degree
- trooping
- membership
- vector
- mentioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供计算少且定词精确的HMM装置和DP配匹装置。为此备有存储特征向量空间各群集代表向量的代码簿。HMM中将基于各状态群集发生概率分布和应识别输入特征向量对各群集归属度的Kullback-Leibler离散的相似度,作为各状态特征向量发生程度。DP匹配中将基于标准模式特征向量对各群集归属度分布和输入特征向量对各群集归属度的Kullback-Leibler离散的相似度,作为输入模式帧和标准模式帧的帧间相似度。
Description
技术领域
本发明涉及声音识别装置等信号分析装置。
背景技术
进行声音识别的方法已知有采用HMM(隐含的马尔可夫模型)的方法和采用DP匹配的方法。虽然任何一种方法都广泛用作声音识别的基本技术,但这些方式如何减少计算量又不致降低性能,却是扩大词汇和实现连续声音识别方面的一个重要问题。对于该问题的一个解决办法,已提出过采用向量量化的方案。本发明正涉及该方案的改进。因此,进入正题之前,首先说明HMM、DP匹配的梗概,以及是以何种形式应用上述向量量化技术的。
HMM可以视作为一个按照某种概率性质发生时间序列信号的模型。采用HMM的声音识别,就是对应于可识别单词、音节、音韵等识别单位r(=1……、R)(此后以单词为代表)设有HMM r,在观察到向量序列Y=(y1、y2……yT)(yt:时刻t观察到的向量)时,计算上述各个HMM r发生Y的可能性,将该可能性最大的HMM所对应的单词作为识别结果。
图1示出的是一例HMM。○表示欲按该HMM建立模型的系统的状态,→表示状态迁移方向,qi表示状态i。从状态i向状态j的迁移设为按概率aij发生。仅定义了状态和其迁移概率的时候称为马尔可夫链,HMM还假设向量随各状态迁移而发生,并定义了向量Y随状态迁移qi→qj发生的可能性ωij(y)。大多数场合,还设Y不是随状态迁移、而是随状态发生,即ωij(y)=ωii(y)=ωi(y)或ωij(y)=ωjj(y)=ωj(y)。本申请对于Y随状态发生的情况加以说明。这里,HMM的结构、状态迁移概率和向量的发生概率确定成尽可能逼真地说明该HMM要建立模型的对象(用于声音识别时为单词等声音模式)的动作。图2是一例在声音识别中应用得较好的HMM的结构。
定义了某种HMM,观测向量序列Y由某种模型(命名为λ)发生的可能性L(Y|λ)便可计算如下。
(式1)
这里,X=(x1、x2……、xT+1)为状态序列,πi为t=1时为状态i的概率。此模型中,xt∈{1、2……、J、J+1},而且取xT+1=J+1为最终状态。最终状态只发生朝向此状态的迁移,因此设为没有向量发生。
HMM大体上分作连续型和离散性。连续型是指ωi(y)为概率密度函数等y的连续函数,yt的发生可能性是以y=yt时的ωi(y)值给出的。在每一状态i定义规定ωi(y)的参数,通过将yt代入ωi(y),来计算yt在状态i时的发生可能性。假如以多元正态分布来给出ωi(y)的话,则
(式2)
由状态i所规定的所述函数的参数即为μi和∑i。
离散型是指,按照向量量化,yt应变换的标号m∈{1、2、……、M}其发生概率bim按每一状态i列表存储,当yt变换后的标号为m时,yt在状态i时的发生可能性为bim。
向量量化采用代码簿进行。代码簿在其规模为M时,是将作为学习样本汇集的特征向量聚类为1、2、……、M群集,再按可由标号m检索的形式来存储群集m(=1、2、……、M)的代表向量(也称为平均向量、矩心、代码向量等)μm的。聚类法熟知的有称为L.B.G算法的方法。yt的向量量化是通过将yt变换为其矩心最近的标号进行的。因而,yt在状态i时的发生可能性可由式3给出。
(式3)
d(yt,μm)是yt与μm的距离,可考虑欧几里德距离及种种距离。
图3是采用离散型HMM的声音识别装置的框图。301是特征提取部,通过滤波组合、傅里叶变换、LPC分析等公知的方法,在一定时间间隔(称作帧)(例如10ms)内将输入声音信号变换为特征向量。因而,输入声音信号变换为特征向量序列Y=(y1、y2、……、yT)。T为帧数。302是称为代码簿的部分,以可由标号检索的形式保存着与各标号对应的代表向量。303是向量量化部,是将上述向量序列Y的各个向量置换成距离其最近的、登记于上述代码簿的代表向量所对应的标号(编码)的部分。304是参数推断部,是根据学习样本推断作为识别词汇的各单词相应的HMM参数的部分。也就是说,要建立单词r所对应的HMM,产先得合适地确定HMM的构造(状态数和其迁移规则),然后根据单词r多次发音得到的标号序列,按照使这些标号序列发生的可能性尽可能高的要求,算出上述模型的状态迁移概率和随状态发生的标号的发生概率。305是HMM存储部,是逐个单词存储这样获得的HMM的部分。306是相似度计算部,它对可识别但未知的输入声音的标号序列,计算相对于上述HMM存储部305所存储各个模型的上述标号序列的相似度。307是判定部,它将相似度计算部306得出的上述各个模型的相似度当中给出最大值的模型所对应的单词判定作为识别结果。图3中,虚线示出的是HMM建立时的信号流程。
连续型HMM由这里定义的概率密度函数来给出各状态观测向量的发生可能性,精度比离散型高,但存在需要大量计算的问题。反之,离散型HMM在计算相对于观测标号序列模型相似度过程中,标号m(=1、……、M)在各个状态的发生概率可从与标号相关预先存储着的存储装置中读出,因而有计算量非常少的优点,但存在量化带来的误差,识别精度相对于连续型差这种问题。要避免它,需要增加标号数M(加大代码簿容量),但随着这种增加,为学习模型所必需的学习样本数变得庞大。学习样本数不够时,上述bim的推断值常常为0,无法正确地推断。
这种推断误差例如为以下情形。现假定上述识别词汇当中有“大阪”这种单词的声音,来考虑建立与此对应的模型的情况。将许多说话人发音的单词“大阪’所对应的声音样本变换为特征向量序列,再将各个特征向量如上文所述那样变换为标号。这样,上述“大阪”的各个声音样本就分别变换为相应的标号序列。根据所得的标号序列,按照使这些标号序列的相似度为最大的要求,来推断HMM参数{aij,bim},通过这种办法来建立单词“大阪”所对应的离散性HMM。这种推断可以采用公知的Baum-Welch法等。
这时,单词“大阪”所对应的学习样本的标号序列当中未必含有代码簿中存在的全部标号。这种在学习样本的标号序列中未出现的标号的发生概率在“大阪’所对应的模型的学习过程中推断为“0”。因而,识别时发音“大阪”这种单词的声音所对应的标号序列当中,偶而有建立上述“大阪”模型所用的标号序列中不包含的标号(学习样本数少时这种情况十分有可能),这时,这种识别时发音“大阪”的标号序列由上述学习的“大阪”模型发生的可能性就会为“0”。可是,在这种情况下,也有标号虽然不同,但在变换为标号之前的特征向量阶段同模型学习中所用的声音样本相近,在向量阶段来看理应足以识别出“大阪”的情况。由于本来是对相同单词发音的,在向量阶段必然近似,但这些向量处于应变换标号群集的边界附近时,在向量阶段即便仅仅是细微差异,也足以导致变换为完全不同的标号。可想而知,这种情况给识别精度带来很坏影响。常常会产生代码簿容量M越大,学习样本数却越少这种问题。
作为消除这种缺点的一种方法有基于模糊向量量化的HMM(FVQ/HMM)。其中,电子信息通信学会技术报告SP93-27(1993年6月)记载的相乘型FVQ/HMM以其示出的优异性能值得注意。
图4是说明FVQ/HMM基本原理的框图。图中虚线示出的是建立HMM时的信号流程。401是特征提取部,与图3中的301相同。402是代码簿,与图3中的302相同。403是归属度运算部,它将上述特征向量变换为归属度向量。归属度向量就是以各时刻特征向量对各群集的归属度为要素的向量,令时刻t的特征向量为yt,上述群集为C1、……、CM,yt对Cm的归属度为utm,则yt变换为归属度向量ut=(ut1、……utM)T。此后,本申请当中向量均为纵向量,上标T表示转置。utm的定义可有种种考虑,但可以定义为例如
(式4)
(参见J.G.Bezdek著的“Pattern Recognition With FuzzyObjective Function Algorithm”,Plenum Press,New York(1981))。本式当中,F>1是指所谓模糊的情形,有
(式5)
这里,δij是克罗内克-狄拉克符号,i=j时δij=1,i=j时δij=0。F→1时,若令距yt最近的矩心所对应的群集的向量为ot,则ot对该群集的归属度为1,对另外群集的归属度为0,因而这就是通常的向量量化。F→∞的话,则不论对何种群集,yt的归属度均为1/M,意味着式5含糊度最大情形。就归属度的其他定义来说,在可采用神经网络等手段求出Cm对yt的事后概率时,可以定义为事后概率(此后,“事后概率”和“归属度”都称为“归属度”)。
由于后面提及的理由,实际上,上述归属度utm并非对全部群集计算,而是对从d(yt,μm)为最小的群集开始至第K位小的群集计算。也就是说,形成上述归属度向量μt的要素对于归属度高端的K群集来说是(式4)计算值,而其他则为0。404是参数推断部。405是HMM存储部,是存储应识别单词、音节等各识别单位所对应的HMM的部分。406是相似度计算部,是从上述向量量化部输出得到的归属度向量序列计算上述各HMM相对于输入声音的相似度,即计算上述特征向量序列y1、……、yT分别由上述HMM r(r=1、……、R)发生的可能性Lr的部分。407是判定部,是计算
(式6)
并以r*作为识别结果的部分。
相似度计算部406是就r=1、……、R按照(式1)计算识别单位r相应的相似度Lr的部分,但随上述ωi(yt)定义方法的不同定义有种种HMM。这里采取的相乘型FVQ/HMM原理上ωi(yt)是如下定义的。
(式7)
改写为相乘形式的话,则为
如上所述,实际上(式7)中有关m的加法或乘法仅对归属度高端的K群集进行,这时(式7)如(式8)所示(此后,以加法形式来说明)。
(式8)
这里h(k)是yt第k位归属度高的群集的标识。按照(式4)定义归属度时,则可以按由小到大的顺序就一直到第k位小的d(yt,μm)来计算(式4)。这时,ut,h(1)+……+ut,h(K)=1,Ut,h(K+1)=……=Ut,h(M)=0。如(式8)所示,(式7)中的加法仅对归属度高端的K群集进行,这固然是使计算量减少,但还有如下理由。
FVQ型比离散型显示出具有较高的识别率,这是因为参数推断时学习样本的补足效果。这种补足效果在例如下述形式中有效。例如,考虑由学习样本估算群集A和群集B在状态i发生的概率的情形。离散型时,应量化的向量无论怎样接近B,但按其边界来看至少是位于A一侧的话,便归类为A,至少是B一侧的,则归类为B。因而,就母集而言,A、B即便含有同级的比例,但学习样本有偏向,尤其是A、B边界附近的向量偶而为A所包含的情况较多,因而很可能发生将A的发生概率估算得比B发生概率大。相对于代码簿容量的学习数据数较少时,就容易引起这种学习数据的偏向,学习样本与评价数据独立时,这种偏向未必与评价数据的倾向相一致,因而识别率变差。
反之,FVQ型则是根据向量的归属度就A和B两者的发生计算它们的出现概率,因而对于上述学习样本即便是A的发生概率有几分高估,B的发生概率仍然是根据该归属度估算的,不会发生离散型极端的估算错误。这就是说,通过采用FVQ型,可对学习样本进行补足。换句话来说,近似于学习样本的增加。这就是代码簿容量变大而FVQ型识别率却超过离散型识别率的原因。
可是,FVQ型虽说是弥补学习样本数的不足,但这只是从尚未给足的学习样本本身来看,表观上近似增加学习样本数,同实际的学习样本数的增加是有些不同的。因此,如果减小代码簿容量,而相对增加对各群集的学习样本数,来充分提高bim估算精度的话,随补足方式的不同,不补足胜于补足欠佳的离散型便很有可能比FVQ型识别率高,识别率水平相当。
这种补足程度是因代码簿容量,模糊量以及K值如何而受不同影响的。随着接近于K=1,即接近于离散型,补足的影响减少,而随K的增加,补足的影响增大。因而模糊量固定时,可由K控制补足程度。也就是说,K无限制地加大反而不好,从使FVQ型识别率相对于离散型的改善量为最大这一意义来说,K根据代码簿有最佳的K0存在。根据实验,在非特定说话人对100个都市名称的识别过程中,对代码簿容量256,K=6为最佳值,对代码簿容量16,K=3为最佳值。
这样,FVQ型与离散型相比,虽然需要在识别时计算(式8),因而增加K次归属度计算和K次累加运算,但识别率比离散型高,具有与连续型时同等以上的水平,而计算量与连续型时相比则有相当大的减少。
计算(式1)可用称为前向-后向(Forward-Backword)法,为了削减计算量,常采用Viterbi法计算关于X的最大值作为(式1)的近似解,一般采用求对数后再求和的形式。也就是说,计算下列(式9),将L′作为相似度。
(式9)
(式9)可通过动态规划法高效地计算。即,取ψi(1)=logπi,并对t=2、……、T递归计算(式10)后,由(式11)求得L′。
(式10)
(式11)
上述计算称为Viterbi法。采用L和采用L′作为识别结果没有很大差异,因而在模型建立过程中采用Baum-Welch法(Forward-Backward法),而在识别过程中最好是采用Viterbi法。在相乘型FVQ/HMM的情况下,识别当中用Viterbi法时,bim只采用log bim的形式,因而不是照原样存储bim,而是存储log bim的话,(式7)或(式8)的计算就可以不需要对数运算,而只需累加。
接下来说明DP匹配。最基本的有特征向量序列之间的模式匹配法。图5是其现有例。51是特征提取部,与图3中的301相同。53是标准模式存储部,存储有与单词对应的标准模式。该标准模式是相应于应识别单词,按特征提取部51变换为特征向量的内容预先登记于标准模式存储部的模式。图5中的虚线示出的是进行这种登记时用到的连接,而识别时可去除这种虚线部分示出的连接。52是模式匹配部,对标准模式存储部53所存储的各个标准模式与输入模式进行匹配计算,算出输入模式和各个标准模式的距离(或相似度)。53是判定部,它找出上述输入模式与各个标准之间给出距离最小值(或相似度最大值)的标准模式所对应的单词。
再略为具体地说明如下。本例中,对求出模式间的距离加以说明。(以“相似度”为基准时可以将“距离”换为“相似度”,将“最小值”换为“最大值”)。现在令特征提取部51在时刻t输出的特征向量为yt,该序列的输入模式为Y=(y1、y2、……、yT),单词r对应的标准模式为
(式12)
Y(r)=(y(r) 1,y(r) 2,...,y(r) J(r))
而且令Y对Y(r)的距离为D(r)、yt和y(r) j的距离为d(r)(t,j)时(这里以乘法形式表示时分别为D2 (r)、d2 (r)(t,j),以加法形式表示时为D1 (r)、d1 (r)(t,j),计算(式13):
(式13)
或计算
这里
X=(x(1),x(2),...,x(K)),
X*=(x*(1),x*(2),...,x*(K))
从而将下列二式作为识别结果。
(式14)
或
这里,(式13)中x(k)=(t(k),j(k))为点阵图(t,j)中Y与Y(r)匹配路径X上的第k个阵点,w(x(k))是格点x(k)对上述距离加权的加权系数。
此后,不论是乘法形式还是加法形式,都有并行的讨论。需要的话,变换为乘法形式的表达是很容易的(d1 (r)(t,j)=logd2 (r)(t,j),D1 (r)=log D2 (r)等)。一般采用加法形式,因而这里主要按加法形式进行说明(因而省略下标1和2),根据需要也表示乘法形式。
若将x(k1)至x(k2)的点阵x(k1)、……、x(k2)设为X(k1,k2),而且x(K)=(t(K),j(K))=(T,J),则(式13)意味着将沿点阵X(1,K)对应加上的输入模式与标准模式Y(r)各特征向量间加权距离累加的X(1,K)相关最小值作为Y与Y(r)的距离D(r)。(式13)的计算若选择好加权系数w(x(k))的话,可采用动态规划法(DynamicProgramming)高效地执行,故称为DP匹配。
为了执行DP,需要建立最优化原则。即必须宣称“最优方案的部分方案也是最优方案”。这样的话,则对于(式15),(式16)的递归式成立,因而可大幅度减少计算量。
(式15)
(式16)
从点x(1)至点P0=x(k)的最优方案就是设沿点阵X(1,k)=(x(1)、……、x(k)=p0)的加权累加距离为ψ′(p0,X(1,k))时,找到使ψ′(p0,X(1,k))为最小的点阵(最优点阵)。若此最优点阵为X*(1,k)=(x*(1)、……、x*(k-1),x*(k)=p0),而且ψ′(p0,X*(1,k))为ψ(p0),则上述最优化原则成立就是指,点x(1)至点x*(k-1)的最优点阵与点阵X*(1,k)上的点x*(1)至点x*(k-1)的点阵一致。换言之,在x(1)为始端、x(k-1)为终端的最优点阵当中,ψ(x(k-1))+w(p0)d(r)(p0)最小的点阵为X*(1,k-1)=(x*(1)、……、x*(k-1))时,x(1)至x(k)=p0的最优点阵中到x(k-1)的点阵与X*(1,k-1)一致。所以,已知以种种x(1)为始端、种种x(k-1)为终端的最优点阵,因而对于种种x(k-1)已知ψ(x(k-1))的话,种种x(1)至特定x(k)=p0的最优点阵和沿此点阵的加权累加距离可由式16计算。也就是说,点x(1)至点x(k)的加权最小累加距离ψ(x(k))采用加权最小累加距离ψ(x(k-1))作为其后续,并按照式16求出,因而比起以ψ(x(1))=w(x(1))d(r)(x(1))作初始值,递归求出D(r)=ψ(x(k))后,一个不漏地计算所有可允许路径的累加距离,能以远远少得多的计算量求出加权最小累加距离。
这里,以能使(式16)成立的加权系数为例,可考虑满足如下任一情况的场合。
(式17)
(1)对于正整数1≤n<K
(2)对于正整数1≤n<K
(3)对于正整数1≤n<K
也就是说,使加权系数如式17的话,最优化原则便成立,从而可以应用动态规划法。(式17)中(1)是加权系数总和等于输入模式长度(帧数)的场合,(2)是加权系数总和等于标准模式长度的场合,(3)是加权系数总和等于输入模式与标准模式长度的和的场合。
采用(式18)的(1)式,便可以考虑将(式18)作为(式16)递归式的一个具体例。
(式18)
这里ψ(1,1)=d(r)(1,1)
D(r)=φ(x(K))=φ(I,J(r))
对t=1、……、T,j=1、……、J逐次计算(式18),便可计算出(式13),即D(r)。这时能连接到x(k)的路径如图6所示那样受约束。也就是说,至点(t,j)的路径是经过点(t-2,j-1)→点(t-1,j)→点(t,j),点(t-1,j-1)→点(t,j),点(t-1,j-1)→点(t,j)三条中任何一条的路径,路径上示出的数值是选择各个路径时的加权系数。这时,w(x(1))+……+w(x(K))等于输入帧数T。因而,这时(式14)的分母与标准模式无关,是不变的,所以在计算输入模式与哪一标准模式最近时,不需要由w(x(1))+……+w(x(K))归一化。这时,可以采用欧几里德距离作为d(r)(t,j),或是采用区块距离作为更为简化的距离。
上述匹配计算当中计算量最多的是特征向量间的距离计算或相似度计算。尤其是单词数变多的话,此计算量便与该单词数成正比,变得较多,响应上费时,实用上成问题。为消除它可想到的办法有采用向量量化的“SPLIT法”(SPLIT:Word RecognitionSystem Using Strings of Phoneme-Like Templates)。(菅村,古井著“采用模拟音素标准模式的大词汇单词声音识别”,信息学论(D),J65-D,8,pp.1041-1048(82年8月))。
图7是示意该现有例的框图。特征提取部71与图3中的相同。73是代码簿,以可由标号检索的形式存储有M个标号标出的代表向量。74是向量量化部,它利用代码簿73将特征提取部71的输出特征向量yt变换为具有距yt最近矩心的群集的标号。77是单词辞典,它将应识别单词声音的标准模式通过如上操作变换为标号序列存储。这种标号也称为别名模拟音素。令标准模式的单词r的第k帧模拟音素为s(r) k的话,则以模拟音素串的形式登记用图7所示方式可识别的单词。J(r)是单词r标准模式的最终帧(因而即帧数)。图中的虚线表示仅在识别单词登记动作时采用的连接。72是距离矩阵运算部,它求出特征提取部71各个输出向量相对于各个群集矩心的距离,变换为以这些距离为要素的向量,再将特征向量序列变换为距离向量序列即距离矩阵。例如,距离矩阵即如图中75所示,因而yt可变换为以t帧特征向量yt的群集Cm矩心μm的距离d(yt,μm)(图7中表示为dTM)为要素的距离向量(d(yt,μ1)、d(yt,μ2)、……、d(yt,μm))T。距离采用例如区块距离时,可定义为
(式19)
这里ytk是向量yt的第k元素,μmk是Cm矩心向量μm的第k元素。76是匹配部,它对距离矩阵运算部62的输出(即距离矩阵)和单词辞典的各个单词进行匹配,计算其间距离。具体来说,设s(r) j=Cm时,则取yt与s(r) j的距离d(r)(t,j)为(式20),并计算(式18)。
(式20)
d(r)(t,j)=d(yt,μm)
也就是说,图7可替代图5现有例中的d(r)(t,j),通过参照距离阵列,只是在采用先前计算的d(yt,μm)方面有所不同,其他全都相同,可利用DP进行计算。78是判定部,是计算(式14),最终得出识别结果的部分。这时,(式14)的分母具有与图1场合相同的值,与图5的现有例中说明的理由相同,由于是w(x(1))+……+w(x(K))=T,所以它不需要归一化。
图5现有例的情况下,yt与y(r) j的距离计算在识别单词数增加时随之一起增加,但在图7现有例的时候,一旦计算完距离矩阵75,yt与模拟音素的距离只要参照距离矩阵75就行,因而单词即便有所增加,d(r)(t,j)的计算量仍然是不变的。
例如考察设1单词平均50帧,特征向量为10次元来识别100单词的情况,在图5时,应进行与yt距离计算的标准模式向量其个数为50×1000=5000左右,设距离为欧儿里德距离,那么计算次数则为其10倍,即50000次。在图7的情况下,进行与yt距离计算的是对代码簿的各矩心向量,因而设群集数M=256的话,便与识别单词无关,由256次距离计算来完成,计算的次数为2560,就是说后者以前者的约1/20次便告完成。
另外,这里输入特征向量序列是就变换为距离矩阵来说明的,但实际上距离向量(dt1、……、dtM)T与标准模式的模拟音素s(r) j(r=1、……、R;j=1、……、J(r))分别核对完一次后,就不需要了。因而,每个输入帧对全部标准模式求出距离向量和计算累加距离递归式的话,d(yt,μi)就不需要以矩阵形式存储,在采用例如(式18)时,可以对当前帧和前一帧这两帧预先存储距离向量,存储量实际上要少许多。
上述FVQ/HMM表明有与连续型HMM同等以上的识别率,计算量与连续型相比少许多,但在确定单词时,不能将ωi(yt)定义为与上述FVQ/HMM相同。
而且,上述SPLIT法与直接进行频谱匹配的方法相比虽以格外少的计算量完成,但存在识别准确性变差的问题。
发明内容
本申请的第一发明正是解决这种问题的发明。第二发明是涉及上述SPLIT法改进,使得上述FVQ方案适用于DP匹配的发明。第三发明是关于削减上述HMM以及DP中存储量、计算量的发明。
(1)第一发明包括:设作为分析对象的系统取多个状态,对特征向量空间聚类形成群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿;存储各状态中上述各标号发生概率(因而是各群集的发生概率)的群集发生概率存储装置;利用代码簿求出观测向量对上述各群集的归属度(上述各群集对该观测向量的事后概率)的归属度运算装置;求出这样求得的上述观测向量对各群集的归属度的对数与上述群集发生概率存储装置所存储各群集的发生概率的积和或与此等效的量,作为观测向量在上述系统各状态中的发生可能性的观测向量发生可能性运算装置。
(2)第二发明包括:对特征向量空间聚类形成群集,以可由群集标号检索的形式存储各个群集代表向量的代码簿;求出观测向量对上述各群集的归属度或上述各群集对上述观测向量的事后概率(两者以后均称为归属度),并求出以上述观测向量对各群集的归属度为要素的归属度向量的归属度运算装置;存储由归属度向量表达的标准模式的标准模式存储装置;对作为上述归属度运算装置输出得到的上述观测向量变换成的归属度向量所组成的输入模式与上述标准模式进行匹配的匹配装置。
(3)第三发明包括:对特征向量空间聚类形成群集,以可由群集标号检索的形式存储各个群集代表向量的代码簿;令HMM状态i时群集m的发生概率或DP匹配中的标准模式向量第i帧的特征向量对群集m的归属度为bim,群集数为M时,从bi1、……、biM中按大小顺序取出的N个bi,g(i,1)、bi,g(i,2)、……bi,g(i,N)(g(i,n)是第n位大的群集的标号)以其原来的值或各自的对数值logbi,g(i,1)、logbi,g(i,2)、……logbi,g(i,N)的形式存储,余下的bi,g(i,N+1)、……、bi,g(i,M)存储常数值的群集发生概率存储装置或归属度标准模式存储装置。
(4)第四发明包括:将特征向量空间聚类形成群集,以可由群集标号检索的形式存储有各个群集代表向量的代码簿;存储各状态中上述各标号的发生概率(因而即各群集的发生概率)的群集发生概率存储装置;利用上述代码簿求出观测向量对上述各群集的归属度(上述各群集对该观测向量的事后概率)的归属度运算装置;含有求出实施例样求得的上述观测向量对各群集的归属度与上述群集发生概率存储装置存储的各群集的发生概率的对数值的积和或与此等效的量,再求出观测向量在上述系统各状态的发生可能性的观测向量发生可能性运算装置;上述各群集在上述各状态的发生概率的推断,采用上述观测向量发生可能性运算装置计算,在识别时,按最大归属度为1、其他归属度全为0的要求,算出上述观测向量归属度的装置。
以下说明本申请发明的作用。
(1)第一发明中,具有一作为分析对象的系统取多个状态,将特征向量空间聚类形成为群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿,由群集发生概率存储装置存储上述各标号在各状态的发生概率(因而即为各群集发生概率),由归属度运算装置,利用代码簿求出观测向量对上述各群集的归属度(上述各群集对该观测向量的事后概率),由观测向量发生可能性运算装置求出这样求得的上述观测向量对各群集的归属度的对数值与上述向量发生概率存储装置存储的各群集发生概率的积和或与此等效的量,从而求出上述观测向量在上述系统各状态的发生可能性。
(2)第二发明中,由特征提取装置将输入信号变换为特征向量序列,由归属度运算装置求出上述向量序列的各个向量对群集存储装置所存储的该向量应归类的各群集的归属度,并由标准模式存储装置在求出以上述向量对各群集的归属度为要素的归属度向量之后,存储应识别的各识别单元分别以归属度向量串表达的标准模式,由匹配装置对作为上述归属度运算装置的输出得到的归属度向量串组成的输入模式和上述标准模式进行匹配。
(3)第三发明中,HMM包括群集发生概率存储装置,群集发生概率存储装置令群集m在状态i的发生概率为bim、群集数为M时,从bi1、……、biM中按大小顺序取出的R个bi,g(i,1)、bi,g(i,2)、……、bi,g(i,R)(g(i,r)是第r位大的群集的标号)以其原来的值或各自的对数值logbi,g(i,1)、logbi,g(i,2)、……、logbi,g(i,R)的形式存储,余下的bi,g(i,R+1)、……bi,g(i,M)存储常数值,特征提取装置将输入信号变换为特征向量序列,群集存储装置存储上述向量应归类的群集,归属度运算装置求出上述特征向量序列各向量对上述各群集的归属度,特征向量发生装置根据上述特征向量对各群集的归属度和上述各群集在上述HMM各状态的发生概率求出上述特征向量发生装置根据上述特征向量对各群集的归属度和上述各群集在上述HMM各状态的发生概率求出上述特征向量在上述HMM各状态的发生可能性,向量序列发生可能性运算装置用上述特征向量发生可能性运算装置的输出,根据上述HMM求出上述特征向量序列的发生可能性,上述特征向量发生可能性运算装置根据上述归属度前K个群集和各自对应的权利要求1记载的群集的发生概率,求出上述特征向量在上述HMM各状态的发生可能性。
(4)第四发明中,包括一将特征向量空间聚类形成群集,以由群集标号检索的形式存储各个群集代表向量的代码簿,群集发生概率存储装置存储上述各标号在各状态的发生概率(因而即为各群集的发生概率),通过归属度运算装置,利用代码簿求出观测向量对上述各群集的归属度(上述各群集对该观测向量的事后概率),观测向量发生可能性运算装置求出这样求得的上述观测向量对各群集的归属度与上述群集发生概率存储装置存储的各群集发生概率对数值的积和或与此等效的量,并求出上述观测向量在上述系统各状态的发生可能性,上述各群集在上述各状态的发生概率的推断利用上述观测向量发生可能性运算装置计算,识别时按最大归属度为1、其他归属度均为0的要求,算出上述观测向量的归属度。
本发明第一方面的信号分析装置,其特征在于,包括:令作为分析对象的系统取多个状态,将特征向量空间聚类为群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿;存储各状态中上述各标号发生概率即各群集发生概率的群集发生概率存储装置;用上述代码簿算出观测向量对上述各群集的归属度即上述各群集对该观测向量的事后概率的归属度运算装置;以及一观测向量发生可能性运算装置,运算
作为该观测向量在状态i中发生的程度,其中utm表示运算所得的上述观测向量对各群集的归属度,bim表示存储于上述群集发生概率存储装置中各群集的发生概率;
上述群集发生概率存储装置,按群集发生概率由大至小处于第N+1位起的群集的发生概率均取非零的相同数值、且群集发生概率总和为1的方式,来计算各群集发生概率,其中N为大于或等于1但小于或等于群集总数的群集排序序号。
本发明第二方面的信号分析装置,其特征在于,包括:令作为分析对象的系统取多个状态,将特征向量空间聚类成群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿;存储各状态中上述各标号发生概率即各群集发生概率的群集发生概率存储装置;用上述代码簿算出观测向量对上述各群集的归属度即上述各群集对该观测向量的事后概率的归属度运算装置;以及一观测向量发生可能性运算装置,运算
作为该观测向量在状态i中发生的程度,其中utm表示运算所得的上述观测向量对各群集的归属度,bim表示存储于上述群集发生概率存储装置中各群集的发生概率。
本发明第三方面的信号分析装置,其特征在于,包括:将特征向量空间聚类为群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿;存储系统各状态中上述各标号发生概率即各群集发生概率的群集发生概率存储装置;用上述代码薄算出观测向量对上述各群集的归属度即上述各群集对该观测向量的事后概率的归属度运算装置;以及一观测向量发生可能性运算装置,运算
作为该观测向量在状态i中发生的程度,其中utm表示运算所得的上述观测向量对各群集的归属度,bim表示存储于上述群集发生概率存储装置中各群集的发生概率;
对上述各群集在上述各状态i中发生概率的推定,用上述观测向量发生可能性运算装置进行计算,使得视为从上述系统发生的观测向量序列的集合平均来说从上述系统当中发生的发生可能性最大,当计算任意一个观测向量序列从上述系统当中发生的可能性程度时,便按最大归属度为1、而其他归属度全为零来计算上述观测向量的归属度。
本发明第四方面的信号分析装置,其特征在于,包括:可将特征向量分类的群集存储装置;对所要比较的向量x、y,计算出各向量对上述各群集的归属度或上述各群集对上述各向量的事后概率,这两者下面均称为归属度,并算出将上述各向量对各群集的归属度作为要素的归属度向量a、b的归属度运算装置;以及算出该归属度向量彼此间距离或相似度的相似度运算装置;
用该距离或相似度作为上述特征向量x和y间的距离或相似度。
附图说明
图1是HMM的说明图。
图2是声音识别时常用的HMM的示意图。
图3是示意离散型HMM声音识别装置现有例的框图。
图4是示意基于模糊量化的HMM的声音识别装置现有例和本申请发明一实施例的框图。
图5是模式匹配声音识别装置的现有例的框图。
图6是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图7是示意采用向量量化的声音识别装置现有例的框图。
图8是一单词确定方法的说明图。
图9是示意基于模糊量化的本发明DP匹配声音识别装置一实施例的框图。
图10是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图11是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图12是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图13是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图14是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图15是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图16是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图17是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图18是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图19是示意一例输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图20是示意一例常用的输入模式轴向依存型DP匹配匹配路径约束条件的说明图。
图21是本发明HMM各状态的群集发生概率或本发明DP匹配中标准模式特征向量对群集的归属度的存储方法说明图。
图22是本发明HMM各状态的群集发生概率或本发明DP匹配中标准模式特征向量对群集的归属度的存储方法说明图。
图23是本发明HMM或本发明DP匹配中输入模式的特征向量对群集的归属度的存储方法说明图。
图24是本发明HMM或本发明DP匹配中输入模式的特征向量对群集的归属度的存储方法说明图。
具体实施方式
以下参照附图说明本发明实施例。
(式7)是从分布ut={ut1、……、utM}与分布bi={bi1、……biM}的Kullback-Leibler发散(以后简记为KLD)导出的(文献:电子信息通信学会技术报告SP93-27(1993年6月))。即,令ut相对bi的乖离度为D(ut‖bi)的话,则KLD由下式给出。
(式21)
这是ut从母集bi中引出的发生难度,换言之,表示ut在状态i的发生难度。因而,log ψi(yt)=-D(ut‖bi)成立的话,ψi(yt)就表示ut在状态i的发生容易度,可用作ωi(yt)。于是,令(式1)的ωi(yt)为ψi(yt),则(式22)成立,其中(式23)所示部分是与模型无关的、仅由输入确定的量,因而由(式22)的值来比较输入模式从哪一模型发生的可能性高时可以省略。于是,可以重新定义为(式24)。也就是说,(式24)在(式1)中定义为(式25)。(式7)可以这样导出。这便是相乘型FVQ/HMM的原理。
(式22)
(式23)
(式24)
(式25)
可是,能这样说是因为对于各HMM中任意的状态序列X,形成输入模式Y的全部向量设为发生一次而且必然是发生一次。而考虑输入模式是几个模型发生的向量序列的联结时,探讨哪部分区间从某个特定模型发生的可能性高的场合则情况不同。这时,假设欲参照模型的状态序列X的最初状态1所对应的输入模式帧为S(X),最终状态J所对应的输入模式帧为E(X),则原理上所有的X计算(式26),求出(式27)后,就可将S(X*)-E(X*)作为应求出的输入声音模式部分区间。
(式26)
(式27)
若是认真计算该区间,就得对E(X)、S(X)的表达组合进行计算,计算量庞大。而且,这时(式23)是随X变化的,因而不能省略。因此,可以考虑用动态规划法来求解(式27)的最优化问题。假定帧S为始端帧,使终端帧t在t′±v范围内变化,再按动态规划法来计算输入部分模式ys、……、yt由HMM发生的可能性。这时可用(式10),由动态规划法便可对各个输入模式(ys、……、yt’-v)、……、(ys、……,yt’+V)求得发生可能性最大的最优状态序列。也就是说,使终端帧t在适当范围内变动,从各个终端当中进一步选择最佳的,便可求得以s为始端的最佳终端。终端范围可用根据例如始端s应对照的HMM所产生向量序列的平均长度等预先设定的值。这时,t每次变动就需要由t-s+1进行归一化。使s变化,并进行相同操作的话,最后便可以求出最佳的始端、终端,即所要的部分区间。这时,对于某个s,每次改变t不需要计算(式10)。也就是说,用图2的模型时,对于某个s,输入特征向量与HMM状态的对应限定于图8斜线范围,与相同斜线内的状态i对应的输入帧m(i)的范围为:
(式28)
m(i+1)范围为:
(式29)
按照(式10),在计算覆盖(式28)的m(i)范围的ψi(m(i))之后,可计算覆盖(式29)的范围的ψi+1(m(i+2))。因而,就各个0i=1、……、J+1,在(式28)范围内计算ψi(m(i))的话,对i=J+1,在(式30)范围内得出的各个ψJ+1(m(J+1))分别是输入模式始端帧为S时对终端帧t’±v的对照结果。
(式30)
也就是说,这样的话,对某一始端帧S可一次求出对应于终端帧t’±v的结果。但即便是这种方法,也必须每帧改变始端,对上述斜线内的范围进行上述计算,计算量很多。要进一步减少此计算量,始端帧也可以设法由动态规划法自动地确定。为此,对递归式(式10)作如下变形。
现设ys、……、yt所对应的最佳状态序列为X*=x* s、x* s+1、……、x* t。为了应用动态规划法,就X*来说,若对于输入帧m’,s<m’<t时x* m’-1=i,x* m’=j(j≠1),则部分模式ys、……、ym’所对应的最优状态序列必须与x* s、……、x* m’一致。也就是说,在对状态序列x* s、……、x* m发生模式ys、……、ym’的情况下,若设此时状态i的区间长(帧数)为z(i),duri(Z)=duri(z(i))为状态i在Z帧之后的可能性,而φj(m’)为(式31)所示,则(式32)成立,而且在对m’<m<t,x* m-1=j,x* m=h时,如果置为(式33),则(式34)成立。
(式31)
这里,j≠i
(式32)
(式33)
这里,h≠j
(式34)
这里,
(式34)中,Wi、Wi’、wdi、wai、wbi(k)、wdi’、wai’、wbi(k)’(i=1、……、J)等是与状态序列一起的加权系数,而且其和ψi(m)是对应于状态序列xs’、……、xm-z(i)(≠x* s……、x* m-z(i))发生输入部分模式ys’、……、ym-z(i)的可能性。Wi为沿状态序列x* s、……、x* m-z(i)的加权系数总和,Wi’为沿状态序列xs’、……、xm-z(i)’的加权系数总和。这里,适当选择加权系数,那不论状态序列如何,(式31)-(式34)便总能够成立。显然,假如Wi=Wi’wdi’=wdi、wai’=wai、wbi(1)’+……+wbi(z(i)’)’=wbi(1)+……+wbi(z(i)),就可满足上述条件。也就是说,关于输入帧m中从其他状态至状态i的状态的序列,m、始端帧s,甚至点(m,i)的状态与取法无关,只要沿这些状态序列的加权系数和不变即可。具体的数值对于i=1、……、J,可以为wdi=wai=1,wbi(k)=1/z(i)。
根据以上讨论,现在假使输入帧t中状态变化为j,则至点(t,j)的最佳部分区间的发生可能性在状态i所对应的输入部分区间的帧数为z的条件下,可从以下递归式求得。
(式35)
这里j≠1
(式36)
这时,令满足(式35)的i,z为i*,z*,若同时存储(式36),则可由以下步骤进行单词确定。
(1)初始化
φl(t)=0 t=1、……、T(πl=1,πi≠0 i≠1)
φi(0)=-∞t=1、……、J
Bl(t)=0 t=1、……、T
(2)对t=1、……、T+1,执行(3)、(4)
(3)对j=1、……J+1,执行(式26)、(式27)
(4)φ(t)=φJ+1(t),B(t)=BJ+1(t-z*)
(5)部分模式检测
终端帧:
(式37)
始端帧:B(t*)
这样的话,(式35)的φj(t)计算对各(t,j)仅一次便完成,logωi(yt-z-l+k)在k=l-z上求和即使不是每次改变z计算,但令k=1至z(m)的和为s(m)的话,至z(m)的和由s(m+1)=s(m)+logωi(yt-z+z(m))的计算完成,计算量大为减少。
这里,本发明中,ωi(yt)设置为(式38)。这里,与(式35)对应定义(式39)的递归式。采用图2的模型时,(式39)变为(式40)。
(式38)
(式39)
(式40)
现在,设已求出最优状态序列,且这时状态i的长度为z(i)*,为了简便设置如下处理。
(式41)
这时下式成立
φJ+1(t)=φJ(t-z(J)*)+FJ+GJ
φJ(t-z(J)*)=φJ-1(t-z(J)*-z(J-1)*)+FJ-1+GJ-1
....
φ2(t-z(J)*-…-z(2)*)=φ1(t-z(J)*-…-z(1)*)+F1+G1
=F1+G1
逐次求总和,则
φJ+1(t)=F1+F2+…+FJ+G1+G2+…+GJ
而且,下式成立
(式42)
因此,采用(式31)递归式时,φJ+1(t)包含与状态序列无关的右边末项和右边第二末项的关于状态的总和,这与输入模式无关,只要对照模型确定,就是确定的量,在该式求最大值问题上是无关系的量,所以寻找输入模式最佳区间时可忽略。因而,就ωi(yt)来说,可以采用如下变形定义。
(式43)
以下说明本申请第二发明将上述FVQ方案用于DP匹配的方法。图9是示意本发明原理的框图。91、93进行与图7的71、73相同动作。92是归属度矩阵运算部,是与图7的72中的距离矩阵运算部相当的部分,在本实施例中求出归属度矩阵。即求出特征向量yt对群集Cm的归属度utm(m=1、……、M,ut1+ut2+……utM=1)。就归属度而言,可以采用模糊理论等所用到的元函数,这时也可以采用与(式4)等前述FVQ/HMM中用到的相同的函数。95是单词辞典,由与应识别各单词对应预先登记的归属度矩阵所组成。也就是说,第r单词的标准模式是以相对其发音由归属度矩阵运算部92得到的归属度矩阵形式登记的。图9中,单词r的标准模式中第j帧相对群集m的归属度由b(r) jm表示。96是对于单词1、……、R的归属度矩阵。
这时,识别时输入模式帧t与标准模式帧j的相似度以归属度向量ut=(ut1、ut2……、utM)T与b(r) j=(b(r) j1、b(r) j2、……b(r) jM)T的相似度形式给出。这里,utm≥0,ut1+……+utM=1,b(r) jm≥0,b(r) j1+……+b(r) jM=1,故而可以将上述两向量看作概率分布向量(设utm、b (r)jm为事后概率时正好是概率分布其本身),与上述HMM的场合相同,上述相似度可由已知的Kullback-Letbler发散以概率分布间的距离给出。即分布(q1、……、qM)和(p1、……、pM)的乖离度由下式给出。
(式44)
利用它的话,d(r)(t,j)可以是以下三种定义。
(式45)
(式45)(1)在采用(式17)(1)的加权系数时为有用的距离定义,(式45)(2)在采用(式17)(2)的加权系数时为有用的距离定义,(式45)(3)在距离对称性上成为问题时为有用的距离定义。不用说,这些定义当中,在加法形式时可以采用常数倍的形式,而在乘法形式时采用常数幂的形式。
94是匹配部,是对单词辞典95中登记的各个单词所对应的各个归属度矩阵和输入模式得到的归属度矩阵进行匹配的部分。也就是说,根据(式45)所示的帧间距离d(r)(t,j)计算递归式(式18),计算由(式13)(a)定义的累加距离D(r)。97是制定部,是计算(式14)得出识别结果的部分。
这样,为了构成可对照的单词辞典,不是将发音的特征向量序列的各个特征向量置换成唯一的模拟音素,而是通过标归属度使多个模拟单素与各个帧对应,因而可以减少现有例所具有的量化误差的不利影响。而且,由上述说明可知,本申请发明当中有如下特征,即这些归属度的运算、标准模式各帧与输入帧距离的运算均可以根据数学上的明确定义来确定。
接下来说明本发明的进一步改进。
首先说明以(式45)(1)为距离尺度的情况。这时帧间距离为:
(式46)
将加权系数作为(式17)(1),再将(式46)代入(式13)的话,则有:
(式47)
但存在t(k)-t(k-n)=1成立的条件1≤n≤k-1(匹配路径中没有对输入模式帧的跳变),对于上述条件中的n,沿x(k-n)至x(k)的路径的加权系数之和为1,即w(k-n+1)+w(k-n+2)+……+w(k)=1时,例如图10-14这类场合,(式47)变成
(式48)
图10-15的例子包括以下几种情形:图10对x(k)=(t,j),k-1≥n≥1,路径是x(k-1)=(t-1,j)或(t-1,j-n);图11、14对于x(k-1)=(t-1,j)或(t-1,j-1),m=2、……、n,路径是x(k-m)=(t-1,j-m);图12、13对x(k-1)=(t-1,j),(t-1,j-1)或(t,j-1),m=2,……,n-1,路径是x(k-m)=(t,j-m),x(k-n)=(t-1,j-n)。各个附图中的路径上所标的数值是一例沿各个场合路径的加权系数。
这时,(式48)右边的第一项对路径的选法和标准模式的区间都是独立的,是仅由输入模式确定的量。因而,在探讨仅与各标准模式和输入模式比较结果的大小有关的问题时可省略。于是,省去此项,改变标号的话,可将下式作模式间的相似度:
(式49)
此时,可将输入帧t同标准模式r的帧j的帧间相似度取为:
(式50)
这里,进而设t(k)-t(k-1)=1(在匹配路径当中设有对输入模式帧的跳变,同时也没有重复,相应于图6或图10情形),则下式成立:
(式51)
这里,j=j(t)是表示t-j平面上匹配路径的函数,从t=t(k)、j=j(k)中消去k后可得。采用图6路径时,匹配部94根据(式50)所示的帧间相似度s(r)(t,j)计算变成例如(式52)的递归式,等于计算(式51)定义的累加相似度S(r)。
(式52)
这里
f(1,1)=s(r)(1,1)
S(r)=f(x(K))=f(I,J(r))
判定部97计算(式53)后,获得识别结果。
(式53)
存在t(k)-t(k-n)=1成立的条件1≤n≤k-1(匹配路径中没有相对输入模式帧的跳变),对上述条件中的n,使沿x(k-n)至x(k)路径的加权系之和为1,即w(k-n+1)+w(k-n+2)+……+w(k)=1的上述方法,在连续单词声音识别等方面有用。也就是说,这是因为,通过这种方法可以用公知的二级DP等有效地计算对连续发音输入单词声音模式,找出与之最为类似、分别登记的识别单词标准模式的最佳链接模式这种问题。这里建议的帧间相似度,在上述场合可以应用,能以简单计算给出高识别性能。
以下说明以(式45)(2)作为距离尺度的情况。这时帧间距离为:
(式54)
将加权重系数取为(式17)(2),再将(式54)代入(式13)的话,则有:
(式55)
但存在j(k)-j(k-n)=1成立的条件1≤n≤k-1(匹配路径中设有相对标准模式的跳变),对于上述条件中的n,沿x(k-n)至x(k)路径的加权系数之和为1,即w(k-n+1)+w(k-n+2)+……+w(k)=1时,例如图15或17的场合,则(式55)变为:
(式56)
图15-19的例子包括:图15对x(k)=(t,j)、k-1≥n≥1,匹配路径是x(k-1)=(t,j-1)或(t-n,j-1);图16、19对x(k-1)=(t,j-1)或(t-1,j-1),m=2、……、n则为x(k-m)=(t-m,j-1);图17、18对x(k-1)=(t,j-1),(t-1,j-1)或(t-1,j),m=2、……n-1,则为x(k-m)=(t-m,j),x(k-11)=(t-n,j-1)。各个附图中路径上标出的数值是一例对各种情形沿路径的加权系数。
这时,(式56)右边的第一项对路径的选法和输入模式的区间都是独立的,是仅由标准模式确定的量(设相对标准模式r的该量为C(r))。因而,在只探讨某个标准模式、输入连续单词声音模式的种种区间、或与种种输入模式的比较结果的大小有关的问题时可以省略。于是,省略此项,改变符号的话,可将下式当作帧间相似度:
(式57)
这时可以将输入帧t和标准模式r的帧j的帧间相似度取为:
(式58)
用这种帧间相似度定义,来判断输入模式接近哪一标准模式时,就比较(S(r)-C(r))/J(r),找出其中最大的。
这里,进一步使j(k)-j(k-1)=1的话(匹配路径中设有相对标准模式帧的跳变,同时也没有重复,相应图20或图15场合),则下式成立:
(式59)
这里,t=t(j)是表示t-j平面上的匹配路径的函数,从t=t(k),j=j(k)中消去k后可得。采用图15-19路径时,匹配部94根据(式58)示出的帧间相似度s(r)(t,j)计算(式60)的递归式,等于计算由(式59)定义的累加相似度S(r)。
(式60)
这里f(1,1)=s(r)(1,1)
S(r)=f(x(K))=f(I,J(r))
存在j(k)-j(k-n)=1成立的条件1≤n≤k-1(匹配路径中设有相对标准模式帧的跳变),对上述条件中的n,使x(k-n)至x(k)路径的加权系数之和为1,即w(k-n+1)+w(k-n+2)+……+w(k)=1的上述方法,在进行单词确定,即根据单词连续发音的连续单词声音输入模式鉴别与某个标准模式最为匹配的部分区间时很有用。这时,与输入模式的区间长度无关,令可比较的标准模式为r的话,可以仅仅比较各区间的S(r)。也就是说,这样就可以应用动态规划法高效地计算单词确定问题。这里建议的帧间相似度可用于这种场合,能以简便的计算给出高识别性能。例如采用图20的路径约束条件,对某个单词进行单词确定时,其步骤如下:
(1)初始化
f(0,j)=f(-1,j)=-∞i=-1、0、1、……、J
f(0,0)=0
(2)对t=1、……、T+1执行(3)-(6)
(3)f(t,0)=-∞
(4)f(t,1)=s(t,1)
(5)B(t,1)=t-1
(6)对j=2、……、J计算以下递归式
(式61)
(7)D(t)=f(t,J),B(t)=B(t,J)
(8)部分模式检测
终端帧:
(式62)
始端帧:B(t*)-1
接下来说明第三发明削减上述HMM和DP中存储量、计算量的方法。
基本的考虑方法是基于:减少存储量时,对高位N<M存储标准模式的归属度;减少计算量时,仅对高位K<M计算输入模式的归属度。此时应注意,当用
(式63)
定义概率分布(p1,…,pM)和概率分布(q1,…,qM)时,可有 qi>0i∈{1,…,M},qi不能变成0。因此,仅计算或存储qi的高位N时,按照使共同值变成q1+……qM=1来确定剩余的qi,并使用该值。此时,对qj(i=1,…,M)所需存储量,qg(1),…,qg(N)为N,而qg(N+1),…,qg(M)为1。其中,g(n)为{q1,…,qM}内,第n位大的q的下标。pi与qi相同,也可分成高位K和K+1以下(K不必与N相等),但这里,pi可等于0,所以若使h(k)为{p1,…,pM}中第K位大p的下标,则能取Ph(1)+…+ph(K)=1,和ph(K+1)+…ph(M)=0。此时,pi(i=1,…,M)所需存储量仅是与ph(1)…,ph(K)对应的K。
上述相乘型FVQ/HMM中的ω(r) j(yt)(当特别载明上述ωi(yt)或bim,aij等涉及单词r时,将(r)加到右上角来表示)和相乘型FVQ/DP中的s(r)(t,j),两者都为(式63)的形式,关于涉及减少上述存储量、计算量方面可以认为相同,所以下面的说明,将对相乘型FVQ/HMM情况,即ω(r) i(yt)说明实施例。此时,若把HMM中状态j改读成DP中标准模式的第j帧,而把HMM状态j中群集m的发生概率b(r) im改读成对DP匹配中标准模式r第j帧群集m的归属度,即使在DP配匹情况下,与HMM完全相同的论述也成立。
作为ω(r) j(y)的定义,减小utm,b (r)jm各存储量的方法可考虑如下。但,下标g(r,j,n)是指HMM r第j状态中群集发生概率为第n位的群集标识(号码),b(r) j,g(r,j,n)为HMM r第j状态中群集g(r,j,n)的发生概率,h(t,k)是输入模式第t帧特征向量归属度为第K位的群集标识,ut,h(t,k)指yt对群集h(t,k)的归属度。
[第一种方法]
(式64)
ω(r) j(yt)表为(式64)。其中,b(r) i,g(r,j,n)在1≤n≤N时为对n=1,…,N的估算值本身,在N+1≤n≤M时,则为:
(式65)
至于utm,(1.1)使用1≤m≤M中m的全部推定值;(1.2)对于ut,h(t,K),在1≤k≤K范围中,取(式66);在K+1≤k≤M时,也可估为ut,h(t,K)=0。(1.2)的情况下,可同时进行减小归属度计算(后文讲述)。
(式66)
[第二种方法]
(式67)
(式68)
在(式67)中,b(r) j,g(r,j,n)在1≤n≤N时,取为(式68),在N+1≤n≤M时,可设定为b(r) j,g(r,j,n)=0。至ut,h(t,K),(2.1)可使用1≤k≤M中的ut,h(t,k)的全部估算值;(2.2)在1≤k≤K时,使用与上述相同的ut,h(t,k);在K+1≤k≤M时,取为(式69)。(2.2)情况下,可同时进行减少归属度计算(后文讲述)。
(式69)
[第三种方法]
(式70)
在(式70)中,utm在1≤k≤K范围中为ut,h(t,k)对k=1,…,K的估算值本身,而在K+1≤k≤M时,取为:
(式71)
至于b(r) i,g(r,j,n),(3.1)在1≤n≤M范围中使用对n=1,…,M的全部估算值;(3.2)在1≤n≤N范围中,取为(式72);在N+1≤n≤M时,也可估为b(r) j,g(r,j,n)=0。(3.2)情况下,同时减少存储量。
(式72)
[第四种方法]
(式73)
在(式73)中,ut,h(t,k)在1≤k≤K时取为(式74),在K+1≤k≤M时,估为ut,h(t,k)=0。至于br) j,g(r,j,n),(4.1)在1≤n≤M时使用n的全部估算值;(4.2)在1≤n≤N时,为其估算值本身;在N+1≤n≤M中,可定义为:
(式74)
(式75)
在(4.2)情况下,可同时减少存储量。
第一种方法、第二种方法、第三种方法中的(3.2)和第四种方法中的(4.2),不对所有群集存储HMM各状态中群集的发生概率(或DP中单词标准模式的归属度),HMM各状态(或DP标准模式的各帧)只对概率(归属度)高的群集中所具概率(归属度)到第N位高的群集,存储它们的标号和概率(归属度)。例如,对第r号单词的HMM(标准模式)如同图21或图22所示。图21可用于按(式67)(式70)定义相似度的情况,图22可用于按(式64)(式73)定义相似度的情况。
第一种方法的(1.2)、第二种方法的(2.2)、第三种方法和第四种方法,不对所有群集计算作为输入模式的归属度矩阵,而对输入模式的各帧,计算归属度高的群集中高到第k位的归属度。例如,输入模式如图23或图24所示。图23可用于按(式64)(式73)定义相似度的情况,图24可用于按(式67)(式70)定义相似度的情况。
在(式64)(式73)情况下,若在图22中存储log b(r) j,g(r,j,n)替代b(r) j,g(r,j,n)(未图示),作为标准模式的归属度矩阵,该计算可用积和运算。此时,比图7已有技术例增加的计算量,若设定(式64)中N=3,(式73)中K=3,则等于各阵点增加3次乘法运算,所以乘法运算次数变成2560+3×50×100=4060,虽比图7已有技术例明显增加,但是与图5情况相比,计算量显著减少,而且识别精度可比图7已有例高。
在(式67)(70)情况下,若在图24中存储log ut,h(t,k)代替Ut,h(t,k)(未图示),作为输入模式的归属度矩阵,则这种计算也可用积和运算。此时,比图7已有例增加的计算量,若设定(式67)中N=3,(式70)中K=3,则由于各阵点增加3次乘法运算,所以乘法运算次数变成2560+3×50×100=4060,虽比图7已有例确实增加。但比图5情况,计算量显著减少,且能得到比图7已有例高的识别精度。这种情况与上节存储log bim情况相比,对于输入模式的每一帧必须计算log ut,h(t,k)。但若k=3,则该计算仅仅为每帧3次,而且ut,h(t,k)仅取0-1之间的数值,若对0≤X≤1将log X列成表格,就可用查表代替计算来完成。
用(式4)定义归属度,并设ut,h(t,1)+…+ut,h(t,k)=1,ut,h(t,k+1)=……=ut,h(t,M)=0时,因为utm从大到小的顺序和d(yt,μm)从小到大的顺序相同,所以首先对所有群集计算d(yt,μm),而高位K的utm的计算,只要与d(yt,μm)的低位K群集相关进行即可,能减少计算量。也即,1≤k≤K范围的归属度当D设置成(式76)时,可由(式77)给出。
(式76)
(式77)
此时。(式76)分母的分数计算和(式77)的计算都为K次。若设定M=256,K=3-6,该计算量变成1/40-1/80。
用(式4)定义归属度,并设ut,h(t,k+1)=…=ut,h(t,M)=ut0,Ut,h(t,1)+…+Ut,h(t,M)=1时,1≤k≤K范围的归属度当D设置为(式78)时,可作为(式79)计算。
(式78)
(式79)
i)对于m∈{h(1)、……、h(K)}
ii)对于m∈{h(K+1)、……、h(M)},共同值为
(式78)其分母的分数计算需M次,但utm从大到小的顺序与d(yt,μm)从小到大的顺序相同,所以首先对所有群集计算d(yt,μm)后,(式79)其i)中utm的计算可与d(yt,μm)的低位K群集相关进行。
或,为了更简化,下面的处理也是一种方法。例如,设dt0={d(yt,μh(K+1))+…+d(yt,μh(M))}/(M-K)或dt0={d(yt,μh(K+1))+d(yt,μh(M))}/2,取d(yt,μh(K+1))=…=d(yt,μ(M))=dt0,则将(式78)近似表达为:
(式80)
再有,归属度运算装置是根据应算出归属度的观测向量和各群集的代表向量的距离计算归属度的,该距离最小的归属度作为第1位,距离从小到大的顺序排列,对K+1位以下的群集取预定的1/K以下的某个固定值,按照从小到大的顺序,由上述各个距离和上述固定值对K个群集进行计算,使归属度的总和等于1。
在相乘型DP匹配情况下,由于标准模式是归属度向量串,所以即使在标准模式中对归属度高位N的群集登记其归属度时,也能使用与对上述utm进行的完全相同的方法。即,取b(r) j,g(r,j,1)+…+b(r) j,g(r,j,N)=1,b(r) j,g(r,j,N+1)=…=b(r) j,g(r,j,M)=0时,假定K→N。h(t,k)→g(r,j,n),ut,h(t,k)→b(r) j,g(r,j,n),则按照(式76)(式77)可求出b(r) jm。同样,当取b(r) j,g(r,j,N+1)=…=b(r) j,g(r,j,M)=b(r) j0,b(r) j,g(r,j,1)+…+b(r) j,g(r,j,M)=1时,按照(式78)(式79)(式80)等可求出b(r) jm。
下面,说明本申请第四发明。该情况在上述HMM场合下有效。该方案利用的是即使估算bjm时的上述K与识别时的上述K不同理论上也不会影响utm。特别是,建立模型时姑且不论,识别时往往也计算量尽可能少。计算量最少的是离散型HMM,它与FVQ/HMM中,识别时设定K=1进行计算的情况相当。因此,建立模型时用FVQ/HMM方法进行,而识别时,可用离散型HMM方法进行识别。如上所述,取FVQ型的意义与其说是同补足减少向量量化引起的量化失真,不如说是缓和学习HMM参数时的学习抽样数不足,提高参数估算精度方面效果大。因此,建立模型时用FVQ型进行,识别时用离散型HMM进行的方法,比起识别也用FVQ型进行的场合虽损失若干性能,但比起建立模型和识别都用离散型HMM进行,尤其是代码簿容量大的情况下,实验上证实能提高识别率。
即使在时间轴线性伸缩的匹配中,也能根据上述归属度向量相互间的比较进行输入模式与标准模式的比较。此时,在可将标准模式帧数合并于输入模式帧数中进行线性伸缩情况下,使用(式7)的相似度定义,而在可将输入模式帧数合并于标准模式帧数中进行线性伸缩情况下,使用(式43)的相似度定义。
(产业实用性)
按照本申请第一发明,使用Kullbach-leibler发散的距离尺度,可提供以少量计算能精度良好地确定单词的HMM装置。
按照本申请第二发明,在根据已有技术向量量化的DP匹配中,把特征向量归属于唯一的一个群集,本发明则把特征向量,按与其对各群集归属度相当的比例或按与其对各群集特征向量的事后概率的比例归属于多个群集,并根据该归属度,用概率距离尺度定义帧间相似度,所以能实现经得起种种因素引起的帧谱变化,而且计算量比已有技术例增加不多就可解决模式比较装置。
按照本申请第三发明,不存储对应于各识别单位的HMM每个状态的全部群集发生概率,而是按概率从高到低的顺序存储到第N位,其余的设定为等概率,存储一个共同值,所以可大幅度减少需要的存储量。
按照本申请第四发明,由于建立模型作为相乘型FVQ/HMM进行,而识别作为离散型HMM进行,所以能实现建立模型时学习抽样数不足引起的误差减小,而且识别时以少量计算就可完成的装置。
Claims (34)
1.一种信号分析装置,其特征在于,包括:令作为分析对象的系统取多个状态,将特征向量空间聚类为群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿;存储各状态中上述各标号发生概率即各群集发生概率的群集发生概率存储装置;用上述代码簿算出观测向量对上述各群集的归属度即上述各群集对该观测向量的事后概率的归属度运算装置;以及一观测向量发生可能性运算装置,运算
作为该观测向量在状态i中发生的程度,其中utm表示运算所得的上述观测向量对各群集的归属度,bim表示存储于上述群集发生概率存储装置中各群集的发生概率;
上述群集发生概率存储装置,按群集发生概率由大至小处于第N+1位起的群集的发生概率均取非零的相同数值、且群集发生概率总和为1的方式,来计算各群集发生概率,其中N为大于或等于1但小于或等于群集总数的群集排序序号。
2.如权利要求1所述的信号分析装置,其特征在于,上述归属度运算装置,按对其归属度由大至小处于第K+1位起的群集的归属度均为零、且归属度总和为1的方式,来计算对各群集的归属度,其中K为大于或等于1但小于或等于群集总数的群集排序序号。
3.一种信号分析装置,其特征在于,包括:令作为分析对象的系统取多个状态,将特征向量空间聚类成群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿;存储各状态中上述各标号发生概率即各群集发生概率的群集发生概率存储装置;用上述代码簿算出观测向量对上述各群集的归属度即上述各群集对该观测向量的事后概率的归属度运算装置;以及一观测向量发生可能性运算装置,运算
作为该观测向量在状态i中发生的程度,其中utm表示运算所得的上述观测向量对各群集的归属度,bim表示存储于上述群集发生概率存储装置中各群集的发生概率。
4.如权利要求3所述的信号分析装置,其特征在于,对于各状态,群集发生概率存储装置所存储的概率,是按对预定的N,令概率分布从高端起至第N位为止的各群集的概率总和为1、而其他群集发生概率均为零这样的方式计算得到的概率数值,其中N为大于或等于1但小于或等于群集总数的群集排序序号。
5.如权利要求3所述的信号分析装置,其特征在于,归属度运算装置,按其归属度为第K+1位起的归属度均取非零的相同数值、且归属度总和为1的方式,来计算观测向量对各群集的归属度,其中K为大于或等于1但小于或等于群集总数的群集排序序号。
6.如权利要求1或3所述的信号分析装置,其特征在于,各状态为隐含马尔柯夫模型的各状态。
7.如权利要求5所述的信号分析装置,其特征在于,包括:
归属度运算装置,所述归属度根据要算出这些归属度的向量和各群集代表向量间的距离算出,其中,令群集总数为M时,按该距离由小至大的顺序至第K位的群集取原距离、而第K+1位起的群集则取一相同数值来计算归属度,其中,0≤K≤M。
8.如权利要求7所述的信号分析装置,其特征在于,对于上述第K+1位起的群集来说,所述相同数值为各群集彼此间距离的平均值。
9.如权利要求7所述的信号分析装置,其特征在于,对于上述第K+1位起的群集来说,所述相同数值为最小距离与最大距离的平均值。
10.如权利要求7所述的信号分析装置,其特征在于,上述归属度,即要算出归属度的观测向量和各群集代表向量间的距离,是按对上述第K位以后的群集取值为一低于预定的1/K的常数值,按距离由小至大的顺序至第K位的群集取值为原距离,并使得所述观测向量对各个群集的归属度总和为1这种方式求出的值。
11.一种信号分析装置,其特征在于,包括:将特征向量空间聚类为群集,以可由群集标号检索的形式存储各个群集的代表向量的代码簿;存储系统各状态中上述各标号发生概率即各群集发生概率的群集发生概率存储装置;用上述代码薄算出观测向量对上述各群集的归属度即上述各群集对该观测向量的事后概率的归属度运算装置;以及一观测向量发生可能性运算装置,运算
作为该观测向量在状态i中发生的程度,其中utm表示运算所得的上述观测向量对各群集的归属度,bim表示存储于上述群集发生概率存储装置中各群集的发生概率;
对上述各群集在上述各状态i中发生概率的推定,用上述观测向量发生可能性运算装置进行计算,使得视为从上述系统发生的观测向量序列的集合平均来说从上述系统当中发生的发生可能性最大,当计算任意一个观测向量序列从上述系统当中发生的可能性程度时,便按最大归属度为1、而其他归属度全为零来计算上述观测向量的归属度。
12.一种信号分析装置,其特征在于,包括:可将特征向量分类的群集存储装置;对所要比较的向量x、y,计算出各向量对上述各群集的归属度或上述各群集对上述各向量的事后概率,这两者下面均称为归属度,并算出将上述各向量对各群集的归属度作为要素的归属度向量a、b的归属度运算装置;以及算出该归属度向量彼此间距离或相似度的相似度运算装置;
用该距离或相似度作为上述特征向量x和y间的距离或相似度。
13.如权利要求12所述的信号分析装置,其特征在于,包括:
通过将特征向量分别变换为归属度向量,将特征向量序列所表示的包括单词、音节、音韵在内的识别单位变换为归属度向量序列加以存储的标准模式存储装置;以及
将特征向量序列组成的输入模式变换为归属度向量序列,对变换为该归属度向量的输入模式和上述各标准模式间的相似度或距离进行计算时,根据构成两模式的各个归属度向量所形成的对应,对构成各自模式的各个归属度向量彼此间的相似度或距离进行累加来计算的匹配装置,
所述归属度向量彼此间的相似度或距离,由上述相似度运算装置得到。
14.如权利要求13所述的信号分析装置,其特征在于,包括:
使输入模式和标准模式当中任一或两者模式的时间轴按线性或非线性伸缩,从而使得两模式的时间长一致,计算与该伸缩结果所得到的两模式相对应的归属度向量彼此间的距离或相似度的相似度运算装置;
对该距离或相似度计算上述对应的总和即累加值的累加相似度运算装置,
上述对应的总和,当所述累加值为距离时是指最小的总和,当为相似度时则指最大的总和,
以上述累加值作为上述输入模式和标准模式间的距离或相似度。
15.如权利要求13所述的信号分析装置,其特征在于,包括:通过动态规划法使输入模式和标准模式当中任一或两者模式的时间轴伸缩,以便累加值为距离时最小、为相似度时最大的动态规划装置。
16.如权利要求12所述的信号分析装置,其特征在于,将要算出距离或相似度的2个归属度向量分别取为a=(a1,…am,…,aM),b=(b1,…bm,…,bM)时,计算距离或相似度的相似度运算装置按下面式1内(1)项、(2)项以及(3)项当中任一项算出距离或相似度,式1中C为大于0的常数,
式1:
17.如权利要求15所述的信号分析装置,其特征在于,令对应于输入模式帧的归属度向量为at=(at,1,…at,m,…,at,M),对应于标准模式帧的归属度向量为bj=(bj,1,…bj,m,…,bj,M),令匹配路径上的第k个座标(t,j)为x(k)=(t(k),j(k)),其中t=t(k),j=j(k),且x(k)中的加权系数为w(x(k)),下面式2为at(k)和bj(k)间的相似度,式3为向量序列at(1),…at(k)和bj(1),…,bj(k)沿上述路径的累加相似度,而且对于1≤n≤k-1,当t(k)-t(k-n)=1时,w(x(k-n+1))+…+w(x(k))=1,
式2:
或
式3:
或
18.如权利要求17所述的信号分析装置,其特征在于,匹配路径为t(k)-t(k-1)=1,w(x(k))=1。
19.如权利要求17所述的信号分析装置,其特征在于,匹配路径x(k)=(t,j),对于k-1≥n≥1,包含下面任一种:
(1)x(k-1)=(t-1,j-n)或x(k-1)=(t-1,j);(2)x(k-1)=(t-1,j-1)或x(k-1)=(t-1,j),对于m=2,…,n,x(k-m)=(t-1,j-m);(3)对于m=1,…,n-1,x(k-m)=(t,j-m)、x(k-n)=(t-1,j-n);(4)对于m=1,…,n-1,x(k-m)=(t,j-m)、x(k-n)=(t-1,j-n);(5)x(k-1)=(t-1,j-1)或x(k-1)=(t-1,j),对于m=2,…,n,x(k-m)=(t-1,j-m);
对于路径(1),w(x(k))=1;对于路径(2),w(x(k))=1,w(x(k-m+1))=0;对于路径(3),w(x(k-m+1))=0,w(x(k-n+1))=1;对于路径(4)、(5),w(x(k-m+1))=1/n。
20.如权利要求15所述的信号分析装置,其特征在于,计算距离或相似度的相似度运算装置,令对应于输入模式帧t的归属度向量为at=(at,1,…at,m,…,at,M),对应于标准模式帧j的归属度向量为bj=(bj,1,…bj,m,…,bj,M),令匹配路径上第k个座标(t,j)为x(k)=(t(k),j(k)),其中t=t(k),j=j(k),且x(k)的加权系数为w(x(k)),下面式4则为at(k)和bj(k)间的相似度,下面式5为向量序列at(1),…at(k)和bj(1),…,bj(k)沿上述路径的相似度,而且对于1≤n≤k-1,在j(k)-j(k-n)=1时,为w(x(k-n+1))+…+w(x(k))=1,
式4:
或
式5:
或
21.如权利要求20所述的信号分析装置,其特征在于,匹配路径为j(k)-j(k-1)=1,w(x(k))=1。
22.如权利要求20所述的信号分析装置,其特征在于,匹配路径x(k)=(t,j),对于k-1≥n≥1,包含下面任一种:
(1)x(k-1)=(t-n,j-1)或x(k-1)=(t,j-1);(2)x(k-1)=(t-1,j-1)或x(k-1)=(t,j-1),对于m=2,…,n,x(k-m)=(t-m,j-1);(3)对于m=1,…,n-1,x(k-m)=(t-m,j)、x(k-n)=(t-n,j-1);(4)对于m=1,…,n-1,x(k-m)=(t-m,j)、x(k-n)=(t-n,j-1);(5)x(k-1)=(t-1,j-1)或x(k-1)=(t,j-1),对于m=2,…,n,x(k-m)=(t-m,j-1);
对于路径(1),w(x(k))=1;对于路径(2),w(x(k))=1,w(x(k-m+1))=0;对于路径(3),w(x(k-m+1))=0,w(x(k-n+1))=1;对于路径(4)、(5),w(x(k-m+1))=1/n。
23.如权利要求12所述的信号分析装置,其特征在于,包括按下列取值存储的标准存储装置,令标准模式帧j对特征向量中群集m的归属度为bjm,群集总数为M时,使按由大至小顺序从bj1,…,bjm中所取的N个bj,g(j,1),bj,g(j,2),…,bj,g(j,N)仍为其原有值,而剩余部分为常数值bo,其中g(j,n)为标准模式帧j中归属度第n位大的群集的标号,N≤M,并使bj,g(j,1)+…+bj,g(j,N)+bo(M-N)=1,或者按上述各值的对数数值log bj,g(j,1),log bj,g(j,2),…,logbj,g(j,N),log bo的形式存储。
24.如权利要求12所述的信号分析装置,其特征在于,按下列取值进行存储,令标准模式帧j对特征向量中群集m的归属度为bjm,群集总数为M时,使按由大至小顺序从bj1,…,bjm中所取的N个bj,g(j,1),bj,g(j,2),…,bj,g(j,N)满足bj,g(j,1)+…+bj,g(j,N)=1,而剩余部分取作bj,g(j,N+1)=…=bj,g(j,M)=0,其中g(j,n)为标准模式帧j中归属度第n位大的群集的标号,N≤M。
25.如权利要求12所述的信号分析装置,其特征在于,令输入模式帧t对特征向量yt中群集m的归属度为utm,群集总数为M时,将yt应变换的归属度向量按下述方式取值:按由大至小顺序从ut1,…,utM中所取的K个ut,h(t,1),ut,h(t,2),…,ut,h(t,K)为其原有值,而剩余部分为常数值uo,并使ut,h(t,1)+…+ut,h(t,K)+uo(M-K)=1,其中h(t,k)为输入模式帧t中归属度第k位大的群集的标号,K≤M。
26.如权利要求12所述的信号分析装置,其特征在于,令输入模式帧t对特征向量yt中群集m的归属度为utm,群集总数为M时,将yt应变换的归属度向量按下述方式取值:按由大至小顺序从ut1,…,utM中所取的K个ut,h(t,1),ut,h(t,2),…,ut,h(t,K)满足ut,h(t,1)+…+ut,h(t,K)=1,而剩余部分取作ut,h(K+1)=…=ut,h(t,M)=0,其中h(t,k)为输入模式帧t中归属度第k位大的群集的标号,K≤M。
27.如权利要求23或26所述的信号分析装置,其特征在于,对于按由大至小顺序从bj1,…,bjM中所取的N个bj,g(j,1),bj,g(j,2),…,bj,g(j,N),以及按照bj,g(j,1)+…+bj,g(j,N)+bo(M-N)=1算出的值bo,其中g(j,n)为标准模式帧j中归属度第n位大的群集的标号,N≤M,以及对全部群集算出的utm,或按由大至小顺序并满足ut,h(t,1)+…+ut,h(t,K)=1从ut1,…,utM中求出的K个ut,h(t,1),ut,h(t,2),…,ut,h(t,K),其中h(t,k)为输入模式帧t中归属度第k位大的群集的标号,K≤M,输入模式第t帧与标准模式第j帧的相似度为
式6:
或
28.如权利要求24或25所述的信号分析装置,其特征在于,对于按由大至小顺序并满足bj,g(j,1)+…+bj,g(j,N)=1从bj1,…,bjM中求出的N个bj,g(j,1),bj,g(j,2),…,bj,g(j,N),其中g(j,n)为标准模式帧j中归属度第n位大的群集的标号,N≤M,以及对全部群集算出的utM,或按由大至小顺序从ut1,…,utM中所取的K个ut,h(t,1),ut,h(t,2),…,ut,h(t,K),其中h(t,k)为输入模式帧t中归属度第k位大的群集的标号,K≤M,以及按照ut,h(t,1)+…+ut,h(t,K)+uo(M-K)=1算出的值uo,输入模式第t帧与标准模式第j帧的相似度为
式7:
或
29.如权利要求23或26所述的信号分析装置,其特征在于,对于对全部群集算出的bjm,或按由大至小顺序并满足bj,g(j,1)+…+bj,g(j,N)=1从bj1,…,bjM中求出的N个bj,g(j,1),bj,g(j,2),…,bj,g(j,N),其中g(j,n)为标准模式帧j中归属度第n位大的群集的标号,N≤M,以及按由大至小顺序从ut1,…,utM中所取的K个ut,h(t,1),ut,h(t,2),…,ut,h(t,K),其中h(t,k)为输入模式帧t中归属度第k位大的群集的标号,K≤M,以及按照ut,h(t,1)+…+ut,h(t,K)+uo(M-K)=1算出的值uo,输入模式第t帧与标准模式第j帧的相似度为
式8:
或
30.如权利要求23或26所述的信号分析装置,其特征在于,对于对全群集算出的bjm,或按由大至小顺序从bj1,…,bjM中所取的N个bj,g(j,1),bj,g(j,2),…,bj,g(j,N),其中g(j,n)为标准模式帧j中归属度第n位大的群集的标号,N≤M,按照bj,g(j,1)+…+bj,g(j,N)+bo(M-N)=1算出的bo,按由大至小顺序并满足ut,h(t,1)+…+ut,h(t,K)=1从ut1,…,utM中求出的K个ut,h(t,1),ut,h(t,2),…,ut,h(t,K),其中h(t,k)为输入模式帧t中归属度第k位大的群集的标号,K≤M,输入模式第t帧与标准模式第j帧的相似度为
式9:
或
31.如权利要求23所述的信号分析装置,其特征在于,包括:
归属度运算装置,所述归属度根据要算出这些归属度的向量和各群集代表向量间的距离算出,其中,令群集总数为M时,按该距离由小至大的顺序至第N位的群集取原距离、而第N+1位起的群集则取一相同数值来计算归属度,其中,0≤N≤M。
32.如权利要求31所述的信号分析装置,其特征在于,对于上述第N+1位起的群集来说,所述相同数值为各群集彼此间距离的平均值。
33.如权利要求31所述的信号分析装置,其特征在于,对于上述第N+1位起的群集来说,所述相同数值为最小距离与最大距离的平均值。
34.如权利要求31所述的信号分析装置,其特征在于,上述归属度,即要算出归属度的观测向量和各群集代表向量间的距离,是按对上述第N位以后的群集取值为一低于预定的1/N的常数值,按距离由小至大的顺序至第N位的群集取值为原距离,并使得所述观测向量对各个群集的归属度总和为1这种方式求出的值。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP130023/1994 | 1994-06-13 | ||
JP13002394 | 1994-06-13 | ||
JP130023/94 | 1994-06-13 | ||
JP102665/1995 | 1995-04-26 | ||
JP10266595 | 1995-04-26 | ||
JP102665/95 | 1995-04-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1129485A CN1129485A (zh) | 1996-08-21 |
CN1159704C true CN1159704C (zh) | 2004-07-28 |
Family
ID=26443348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB951905473A Expired - Fee Related CN1159704C (zh) | 1994-06-13 | 1995-06-09 | 信号分析装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6061652A (zh) |
KR (1) | KR100324988B1 (zh) |
CN (1) | CN1159704C (zh) |
WO (1) | WO1995034884A1 (zh) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3090119B2 (ja) * | 1998-05-15 | 2000-09-18 | 日本電気株式会社 | 話者照合装置、方法及び記憶媒体 |
US6742003B2 (en) | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
US6216134B1 (en) * | 1998-06-25 | 2001-04-10 | Microsoft Corporation | Method and system for visualization of clusters and classifications |
US6347297B1 (en) * | 1998-10-05 | 2002-02-12 | Legerity, Inc. | Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition |
US6219642B1 (en) | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
DE69943018D1 (de) * | 1998-10-09 | 2011-01-20 | Sony Corp | Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium |
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
US6720984B1 (en) | 2000-06-13 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Characterization of bioelectric potentials |
EP2302580A1 (en) * | 2001-10-13 | 2011-03-30 | Superderivatives Inc | Method and system for pricing financial derivatives |
EP1369847B1 (en) * | 2002-06-04 | 2008-03-12 | Intellectual Ventures Fund 21 LLC | Speech recognition method and system |
US7076427B2 (en) * | 2002-10-18 | 2006-07-11 | Ser Solutions, Inc. | Methods and apparatus for audio data monitoring and evaluation using speech recognition |
US7133828B2 (en) * | 2002-10-18 | 2006-11-07 | Ser Solutions, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
US8055503B2 (en) * | 2002-10-18 | 2011-11-08 | Siemens Enterprise Communications, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
ATE545130T1 (de) * | 2002-12-23 | 2012-02-15 | Loquendo Spa | Verfahren zur optimierung der durchführung eines neuronalen netzwerkes in einem spracherkennungssystem durch bedingtes überspringen einer variablen anzahl von zeitfenstern |
US8170873B1 (en) * | 2003-07-23 | 2012-05-01 | Nexidia Inc. | Comparing events in word spotting |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
US7245767B2 (en) * | 2003-08-21 | 2007-07-17 | Hewlett-Packard Development Company, L.P. | Method and apparatus for object identification, classification or verification |
AU2004267846B2 (en) * | 2003-08-22 | 2010-08-26 | InContact Inc. | System for and method of automated quality monitoring |
KR20050054706A (ko) * | 2003-12-05 | 2005-06-10 | 엘지전자 주식회사 | 음성인식을 위한 어휘 트리 구축 방법 |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
JP4745094B2 (ja) * | 2006-03-20 | 2011-08-10 | 富士通株式会社 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
CN100552664C (zh) * | 2006-10-20 | 2009-10-21 | 东芝泰格有限公司 | 模式匹配装置以及方法 |
US20080243503A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Minimum divergence based discriminative training for pattern recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
JP2011221688A (ja) * | 2010-04-07 | 2011-11-04 | Sony Corp | 認識装置、認識方法、およびプログラム |
JP5258915B2 (ja) * | 2011-02-28 | 2013-08-07 | 株式会社デンソーアイティーラボラトリ | 特徴変換装置、それを含む類似情報探索装置、コード化パラメータ生成方法、及びコンピュータ・プログラム |
CN105355214A (zh) * | 2011-08-19 | 2016-02-24 | 杜比实验室特许公司 | 测量相似度的方法和设备 |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US8831339B2 (en) | 2012-06-19 | 2014-09-09 | Palo Alto Research Center Incorporated | Weighted feature voting for classification using a graph lattice |
US9053579B2 (en) * | 2012-06-19 | 2015-06-09 | Palo Alto Research Center Incorporated | Selective learning for growing a graph lattice |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN105989849B (zh) * | 2015-06-03 | 2019-12-03 | 乐融致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
US11429890B2 (en) * | 2017-10-30 | 2022-08-30 | Bank Of America Corporation | Dynamic pattern recognition and data reconciliation |
US11256869B2 (en) * | 2018-09-06 | 2022-02-22 | Lg Electronics Inc. | Word vector correction method |
WO2021152838A1 (en) * | 2020-01-31 | 2021-08-05 | Nec Corporation | Speech embedding apparatus, and method |
WO2021202552A1 (en) | 2020-03-30 | 2021-10-07 | Oracle International Corporation | Improved techniques for out-of-domain (ood) detection |
US11823478B2 (en) | 2022-04-06 | 2023-11-21 | Oracle International Corporation | Pseudo labelling for key-value extraction from documents |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4570232A (en) * | 1981-12-21 | 1986-02-11 | Nippon Telegraph & Telephone Public Corporation | Speech recognition apparatus |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
DE3711342A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
JPS63250698A (ja) * | 1987-04-08 | 1988-10-18 | 松下通信工業株式会社 | 音声認識装置 |
JPH01102599A (ja) * | 1987-10-12 | 1989-04-20 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
US5129002A (en) * | 1987-12-16 | 1992-07-07 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition apparatus |
JP2764277B2 (ja) * | 1988-09-07 | 1998-06-11 | 株式会社日立製作所 | 音声認識装置 |
JP2964507B2 (ja) * | 1989-12-12 | 1999-10-18 | 松下電器産業株式会社 | Hmm装置 |
US5263120A (en) * | 1991-04-29 | 1993-11-16 | Bickel Michael A | Adaptive fast fuzzy clustering system |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
-
1995
- 1995-06-09 CN CNB951905473A patent/CN1159704C/zh not_active Expired - Fee Related
- 1995-06-09 KR KR1019960700535A patent/KR100324988B1/ko not_active IP Right Cessation
- 1995-06-09 US US08/596,305 patent/US6061652A/en not_active Expired - Fee Related
- 1995-06-09 WO PCT/JP1995/001154 patent/WO1995034884A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN1129485A (zh) | 1996-08-21 |
KR960704299A (ko) | 1996-08-31 |
KR100324988B1 (ko) | 2002-08-27 |
WO1995034884A1 (fr) | 1995-12-21 |
US6061652A (en) | 2000-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1159704C (zh) | 信号分析装置 | |
CN1237502C (zh) | 生成声音模型的方法、装置和生成声音模型的计算机程序 | |
CN1105464A (zh) | 能识别口述命令的交互式计算机系统 | |
CN1228866A (zh) | 语音处理系统及方法 | |
CN1145142C (zh) | 矢量量化方法和语音编码方法及其装置 | |
CN1808414A (zh) | 学习、识别和生成数据的方法和设备以及计算机程序 | |
CN101079026A (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
CN1324556C (zh) | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 | |
CN1842702A (zh) | 声音合成装置和声音合成方法 | |
CN1102270C (zh) | 信息处理方法和信息处理设备 | |
CN1632864A (zh) | 扩散矢量生成方法及扩散矢量生成装置 | |
CN1462428A (zh) | 语音处理装置 | |
CN1734445A (zh) | 用于对话的方法、装置和程序及其中存储程序的存储介质 | |
CN1271564C (zh) | 信号处理设备 | |
CN1311423C (zh) | 利用多语言字典执行语音识别的系统和方法 | |
CN1151573A (zh) | 声音识别方法,信息形成方法,声音识别装置和记录介质 | |
CN1507617A (zh) | 学习器材和学习方法,以及机器人设备 | |
CN1471078A (zh) | 字识别设备、字识别方法和字识别程序 | |
CN1855224A (zh) | 信息处理装置、信息处理方法及程序 | |
CN1091906C (zh) | 模式识别方法和系统以及模式数据处理系统 | |
CN1731418A (zh) | 复杂背景图像中鲁棒的眼睛精确定位方法 | |
CN1942932A (zh) | 信号分离装置、信号分离方法、信号分离程序及记录媒体 | |
CN1331449A (zh) | 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统 | |
CN1867966A (zh) | 数据处理单元和数据处理单元控制程序 | |
CN1453767A (zh) | 语音识别装置以及语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |