CN102473412B

CN102473412B - 语音信号区间估计装置与方法

Info

Publication number: CN102473412B
Application number: CN201080032747.5A
Authority: CN
Inventors: 藤本雅清; 中谷智广
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-07-21
Filing date: 2010-07-15
Publication date: 2014-06-11
Anticipated expiration: 2030-07-15
Also published as: CN102473412A; US9208780B2; WO2011010604A1; US20120173234A1; JPWO2011010604A1; JP5411936B2

Abstract

提高语音信号区间估计装置的处理效率与估计精度。声音信号分析单元以包含语音信号与噪声信号的声音数字信号作为输入，针对该声音数字信号的每个帧，利用无声GMM与去噪语音GMM生成适合噪声环境的非语音GMM与语音GMM，并从各GMM中仅计算必要的正态分布的输出概率。然后，语音/非语音状态概率比计算单元利用该输出概率，算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率比，语音信号区间估计单元根据语音/非语音状态概率比，判定该帧的声音信号是语音状态还是非语音状态，从而仅输出语音状态的声音信号。

Description

语音信号区间估计装置与方法

技术领域

本发明涉及从包含多个声音信号的信号中，估计语音信号存在的区间的语音信号区间估计装置与语音信号区间估计方法以及在计算机中实施该装置的程序与记录了该程序的记录介质。

背景技术

在实际环境中利用自动语音识别技术的情况下，需要从包含作为处理对象的语音信号以外的噪声的声音信号中，估计作为处理对象的语音信号存在的区间，并进一步去除噪声。

图22作为以往的语音信号区间估计装置900而表示用于实施在非专利文献1公开的以往的语音信号区间估计方法的功能结构，简单说明其动作。语音信号区间估计装置900包括声音信号分析单元90、语音/非语音状态概率比计算单元95、语音信号区间估计单元96。声音信号分析单元90进一步由声音特征量提取单元91、概率估计单元92、参数存储单元93、GMM(高斯混合模型(Gaussian Mixture Model)：混合正态分布模型)存储单元94构成。参数存储单元93由初始噪声概率模型估计用缓冲器930与噪声概率模型估计用缓冲器931构成。GMM存储单元94由分别存储了预先生成的无声GMM与去噪语音GMM的无声GMM存储单元940与去噪语音(clean speech)GMM存储单元941构成。

声音特征量提取单元91提取包括语音信号与噪声信号的声音数字信号A_t的声音特征量O_t。作为声音特征量，例如能够利用对数梅尔谱(mel spectrum)或倒普(cepstrum)等。概率估计单元92利用无声GMM与去噪语音GMM生成适应了噪声环境的非语音GMM与语音GMM，并计算相对于输入的声音特征量Q_t的非语音GMM内的全部的正态分布的非语音概率以及语音GMM内的全部的正态分布的语音概率。

语音/非语音状态概率比计算单元95利用该非语音概率与语音概率，计算语音/非语音状态概率比。语音信号区间估计单元96根据语音/非语音状态概率比判断输入声音信号是语音状态还是非语音状态，从而仅输出例如语音状态的声音信号D_S。

这样，以往的语音信号区间的估计方法利用GMM内的全部的概率分布模型而估计语音区间。利用全部的概率模型是因为认为其全部都重要。这种想法在非专利文献2中作为语音信号区间检测与噪声抑制的方法而公开。利用全部的概率分布的想法从非专利文献2所示的计算噪声抑制滤波器以及滤波器增益的下式(1)也可以明白。

[数1]

{\hat{G}}_{t, l} = Σ_{j = 0}^{l} α_{j, t} Σ_{k = 1}^{K} p (k | O_{t, j}) {\hat{G}}_{t, j, k, l} - - - (1)

这里，p(k|O_t，j)是第k个正态分布的输出概率，K表示全部的分布数量。

现有技术文献

非专利文献

非专利文献1：藤本雅清、石塚健太郎、加藤比呂子、「音声と雑音両方の状態遷移を有する雑音下音声区間検出」、信学技報、2006年12月14日発行。

非专利文献2：Masakiyo Fujimoto，Kentaro Ishizuka，and Tomohiro Nakatani，“Study of Integration of Statistical Model-Based Voice Activity Detection and Noise Suppression，”Proc.Interspeech’08，pp.2008-2011，Sept.2008.

发明内容

发明要解决的课题

在以往的方法中，在进行语音信号区间检测与噪声抑制时利用全部的概率分布，因此存在处理量多的问题。若输入的声音信号是多声道，则由于需要对每个声道独立进行处理，因此导致处理量进一步增大。

本发明鉴于这样的问题而完成。根据最近的研究成果可知，在进行语音信号区间检测与噪声抑制时，即使并不是利用全部的概率分布也可以。因此本发明的目的在于，提供不利用概率模型(GMM)内的不需要的分布，从而实现处理的高速化的语音信号区间估计装置、语音信号区间估计方法以及通过计算机实现该装置的程序、记录了该程序的记录介质。

用于解决的课题的手段

本发明的语音信号区间估计装置包括声音信号分析单元与区间估计信息生成单元。声音信号分析单元以包含语音信号与噪声信号的声音数字信号作为输入，针对该声音数字信号的每个帧，利用无声GMM与去噪语音GMM，生成适合噪声环境的非语音GMM与语音GMM，计算从各GMM中除去了最小输出概率的一个以上的正态分布的剩余的正态分布的非语音概率与语音概率。区间估计信息生成单元利用这些非语音概率与语音概率，算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率比，并基于算出的概率比，生成并输出语音区间估计信息。

此外，本发明的附有噪声抑制功能的语音信号区间装置在上述的语音信号区间估计装置的结构中还具有噪声抑制单元，以语音/非语音状态概率比计算单元输出的概率比以及声音信号分析单元输出的输出概率作为输入，生成噪声抑制滤波器，从而抑制声音数字信号的噪声。

发明效果

根据本发明的语音信号区间估计装置，声音信号分析单元针对每个帧，利用无声GMM与去噪语音GMM，生成适合噪声环境的非语音以及语音的概率模型，并仅计算必要的分布的概率模型的输出概率。然后，仅利用该输出概率，判定语音信号区间。从而，与利用全部的概率模型的以往的语音信号区间估计装置相比，能够实现处理的高速化。

此外，本发明的附有噪声抑制功能的语音信号区间估计装置在本发明的语音信号区间估计装置中附加噪声抑制单元，从而抑制输入语音信号的噪声。

附图说明

图1是表示本发明的语音信号区间估计装置100的功能结构例的图。

图2是表示语音信号区间估计装置100的动作流程的图。

图3是表示概率模型参数估计/概率计算单元11的功能结构例的一部分的图。

图4是表示概率模型参数估计/概率计算单元11的功能结构例的剩余部分的图。

图5是表示概率模型参数估计/概率计算单元11的动作流程的图。

图6是表示概率权重计算处理单元116的动作流程的图。

图7是例示用于求出正态分布号SortIdx_t，j，k的方法的图。

图8是表示概率值的分布例的图，A表示非语音GMM的各正态分布k的分类(sort)后输出概率w_{sort，t，0，k}的分布，B表示语音GMM的分类后输出概率w_{sort，t，l，k}的分布的图。

图9是表示必要分布决定处理单元117的动作流程的图。

图10是表示语音/非语音状态概率比计算单元95的功能结构例的图。

图11是表示语音状态/非语音状态的状态转移模型的图。

图12是表示语音/非语音状态概率比计算单元95的动作流程的图。

图13是表示语音信号区间估计单元96的功能结构例的图。

图14是表示本发明的语音信号区间估计装置200的功能结构例的图。

图15是表示信号平均单元50的动作流程图。

图16是表示第2声音信号分析单元60的功能结构例的图。

图17是表示第2声音信号分析单元60的动作流程的图。

图18是表示本发明的附有噪声抑制功能的语音信号区间估计装置300的功能结构例的图。

图19是表示噪声抑制单元70的功能结构例的图。

图20是表示实验结果的图。

图21是表示信号波形的图，A是声音输入信号波形，B是噪声抑制输出的信号波形的图。

图22是表示以往的语音信号区间估计装置900的功能结构的图。

具体实施方式

以下，参照附图说明本发明的实施方式。对多个附图中的相同的部件附加相同的参照标号，且不重复进行说明。此外，在以下的说明中，在文本的行中使用的记号“^”本来应该是记载在紧随其后的字符的正上方的记号，但由于文本输入法的限制，记载在该字符的正前面。在公式中这些记号记载在本来的位置上。此外，对于矢量，如“矢量A”这样在正前面赋予“矢量”而记载，但在公式中均以加粗的字符来记载。此外，以矢量的各元素为单位进行的处理设在没有特别提起的情况下对全部的矢量的全部的元素应用。

实施例1

图1表示本发明的语音信号区间估计装置100的功能结构例。图2表示其动作流程。语音信号区间估计装置100包括声音信号分析单元10、语音/非语音状态概率比计算单元95、语音信号区间估计单元96、以及控制单元20。声音信号分析单元10由声音特征量提取单元91、概率模型参数估计/概率计算单元11、GMM存储单元94、以及参数存储单元93构成。GMM存储单元94包括无声GMM存储单元940与去噪语音GMM存储单元941。此外，参数存储单元93包括初始噪声概率模型估计用缓冲器930与噪声概率模型估计用缓冲器931。此外，语音/非语音状态概率比计算单元95与语音信号区间估计单元96构成区间估计信息生成单元9。

语音信号区间估计装置100的输入信号即声音信号A_t是将包含语音信号与噪声信号的模拟声音信号例如以采样频率8kHz离散化的声音数字信号。t表示帧号。在图1中，省略了用于将模拟声音信号变换为声音数字信号的A/D变换单元。

语音信号区间估计装置100是在例如由ROM、RAM、CPU等构成的计算机读入规定的程序，通过由CPU执行该程序而实现的装置。另外，如参照标号可知，语音信号区间估计装置100对图22所示的以往的语音信号区间估计装置900的不同点仅在于声音信号分析单元10的一部分的结构与动作。其特点尤其在于声音信号分析单元10内的概率模型参数估计/概率计算单元11对每个帧生成适应噪声环境的非语音GMM与语音GMM，并从各GMM中计算仅是所需的正态分布的输出概率。

声音信号分析单元10以离散化的语音数字信号A_t作为输入，例如针对以200个声音数字信号作为一个帧(例如25ms)的每个帧，利用在GMM存储单元94中存储在无声GMM与去噪语音GMM，生成适合噪声环境的非语音GMM与语音GMM，并从各GMM中计算仅是所需的正态分布的非语音概率与语音概率(步骤S10)。

声音特征量提取单元91对包含语音信号与噪声信号的帧t的声音数字信号A_t应用快速傅立叶变换以及12维的梅尔谱分析，计算并输出具有12维的对数梅尔谱作为元素的矢量O_t＝{O_t，0，O_t，1，...，O_t，11}(帧t中的声音特征量)。下标数字0、1、...、11表示矢量的元素号l(字母l)。

概率模型参数估计/概率计算单元11对针对每个帧输入的对数梅尔谱应用并列非线性卡尔曼滤波器，从而估计噪声概率模型参数。对于并列非线性卡尔曼滤波器将在后面叙述。

GMM存储单元94的无声GMM存储单元940与去噪语音GMM存储单元941分别存储预先生成的无声GMM与去噪语音GMM。各GMM包括多个正态分布，各正态分布将混合权重w_j，k、平均μ_s，j，kl、方差∑_{s，j，k，l}设为参数。j是GMM的种类，j＝0表示无声GMM，j＝1表示去噪语音GMM。k表示各正态分布的号。各分布的总数K例如是32个。K的值兼顾精度与处理速度来决定。

语音/非语音状态概率比计算单元95利用这些输出概率，计算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率比(步骤S95)。语音信号区间估计单元96将语音/非语音状态概率比与阈值进行比较，从而判定该帧的声音信号是语音状态还是非语音状态，并例如仅切出语音状态的声音信号而作为区间估计信息D_ES来输出(步骤S96)。另外，语音信号区间估计单元96可以单独或与输入声音信号一同输出用于表示声音信号中的语音状态的区间与非语音状态的区间的信号作为语音信号区间信息，或者，也可以基于用于表示被判定的区间的信号，将声音信号中的非语音信号区间的振幅设为0并将其作为语音信号区间信息输出，或者也可以如上所述那样除去非语音状态的区间(缩短时间)而作为语音信号区间信息来输出。

以上的动作重复至对全部的帧结束为止(步骤S20：否)。该语音信号区间估计装置100的各单元的动作控制由控制单元20来进行。

根据语音信号区间估计装置100，声音信号分析单元10仅计算需要的正态分布的输出概率。然后，基于该输出概率，例如仅输出判定为语音状态的帧的声音信号作为区间估计信息D_ES。从而，仅利用必要的概率模型进行语音区间检测，因此能够使处理高速化。

接着，表示概率模型参数估计/概率计算单元11的更具体的功能结构例，更详细地进行说明。

[概率模型参数估计/概率计算单元11]

图3与图4将概率模型参数估计/概率计算单元11的更具体的功能结构例分为两个部分来表示，图5表示其动作流程。概率模型参数估计/概率计算单元11包括帧判定处理单元110、初始噪声概率模型估计处理单元111、参数预测处理单元112、参数更新处理单元113、概率模型参数生成估计处理单元114、输出概率计算单元115、概率权重计算处理单元116、必要分布决定处理单元117、第1加权平均处理单元118以及第2加权平均处理单元119。

帧判定处理单元110在动作开始初始阶段的例如10帧以下时，即若将帧号t设为t＝0、1、...，则在t＜10时，将来自声音特征量提取单元91的声音特征量O_t存储在初始噪声概率模型估计用缓冲器930(步骤S930)。若帧数成为11(即t＝10)，则指示初始噪声概率模型估计处理单元111读出t＝0～t＝9的声音特征量。然后，初始噪声概率模型估计处理单元111如式(2)和式(3)所示那样估计初始的噪声概率模型参数N^init _l、∑^init _N，l(步骤S111)。

[数2]

N_{l}^{init} = \frac{1}{10} Σ_{t = 0}^{9} O_{t, l} - - - (2)

Σ_{N, l}^{init} = \frac{1}{10} Σ_{t = 0}^{9} {(O_{t, l} - N_{l}^{init})}^{2} - - - (3)

若帧数成为比11大，(即，t＞10)，则帧判定处理单元110指示参数预测处理单元112从噪声概率模型估计用缓冲器931读出一个帧之前的噪声概率模型参数的估计值^N_t-1，l、^∑_N，t-1，l(步骤S931)。

参数预测处理单元112根据初始的噪声概率模型参数N^init _l、∑^init _N，l，或者一个帧之前的噪声概率模型参数的估计值^N_t-1，l、^∑_N，t-1，l，通过式(4)和(5)所示的随机游走(random walk)过程，预测当前的帧t的噪声概率模型参数(步骤S112)。

[数3]

N_{t, l}^{pred} = {\hat{N}}_{t - 1, l} - - - (4)

Σ_{N, t, l}^{pred} = {\hat{Σ}}_{N, t - 1, l} + ϵ - - - (5)

这里，N^pred _t，l、∑^pred _N，t，l是帧t中的噪声概率模型参数的预测值，ε例如是0.0010等小的值。当帧数为10(即t＝9)时，如式(6)和(7)所示那样进行预测处理。

[数4]

N_{t, l}^{pred} = N_{l}^{init} - - - (6)

Σ_{N, t, l}^{pred} = Σ_{N, l}^{init} + ϵ - - - (7)

参数更新处理单元113将当前的帧t的预测到的噪声概率模型参数N^pred _t，l、∑^pred _N，t，l、声音特征量O_t、构成GMM存储单元94的各GMM的多个正态分布的参数μ_{s，j，k，l}、∑_{s，j，k，l}作为输入，更新式(4)、(5)或者(6)、(7)的噪声概率模型参数N^pred _t，l、∑^pred _N，t，l(步骤S113)。更新处理通过对每个帧应用由式(8)～(13)表示的非线性卡尔曼滤波器而进行。

[数5]

y_{t, j, k, l} = μ_{S, j, k, l} + \log (1 + \exp (N_{t, l}^{pred} - μ_{S, j, k, l})) - - - (8)

\frac{{&PartialD; y}_{t, j, k, l}}{{&PartialD; N}_{t, l}^{pred}} \frac{\exp (N_{t, l}^{pred} - μ_{S, j, k, l})}{1.0 + \exp (N_{t, l}^{pred} - μ_{S, j, k, l})}

H &equiv; \frac{{&PartialD; y}_{t, j, k, l}}{{&PartialD; N}_{t, l}^{pred}} - - - (9)

Σ_{y, t, j, k, l} = {HΣ}_{N, t, l}^{pred} H + Σ_{S, j, k, l} - - - (10)

G = \frac{{HΣ}_{N, t, l}^{pred}}{Σ_{y, t, j, k, l}} - - - (11)

{\hat{N}}_{t, j, k, l} = N_{t, l}^{pred} + G (O_{t, l} - y_{t, j, k, l}) - - - (12)

{\hat{Σ}}_{N, t, j, k, l} = (1 - GH) Σ_{N, t, l}^{pred} - - - (13)

这里，式(12)与(13)是被更新后的正态分布的参数。该非线性卡尔曼滤波器是现有的技术。

概率模型参数生成估计处理单元114将在GMM存储单元94中存储着的多个正态分布的参数μ_{s，j，k，l}、∑_{s，j，k，l}、以及在参数更新处理单元113中更新后的正态分布参数^N_{t，j，k，l}、^∑_{N，t，j，k，l}作为输入，生成适应帧t的噪声环境的非语音GMM(噪声+无声)与语音GMM(噪声+去噪语音)(步骤S114)。通过以下式来获得非语音GMM与语音GMM。

[数6]

μ_{O, t, j, k, l} = μ_{S, j, k, l} + \log (1 + \exp ({\hat{N}}_{t, j, k, l} - μ_{S, j, k, l})) - - - (14)

H = \frac{\exp ({\hat{N}}_{t, j, k, l} - μ_{S, j, k, l})}{1.0 + \exp ({\hat{N}}_{t, j, k, l} - μ_{S, j, k, l})} - - - (15)

Σ_{O, t, j, k, l} = H {\hat{Σ}}_{N, t, j, k, l} H + Σ_{S, j, k, l} - - - (16)

这里，μ_{0，t，j，l}、∑_{0，t，k，l}是帧t中的非语音GMM(j＝0)、语音GMM(j＝1)的正态分布参数，μ是平均，∑是方差。

输出概率计算处理单元115通过以下式来获得基于在概率模型参数生成估计处理单元114中生成的非语音GMM与语音GMM各自的声音特征量O_t的输出概率。首先，通过式(17)来计算各正态分布k的输出概率b_1，j，k(O_t)。另外，记号b的下标数字1是用于与后述的实施例2中的第2声音信号分析单元的输出概率进行区分的记号。

[数7]

b_{1, j, k} (O_{t}) = Π_{l = 0}^{L - 1} \frac{1}{\sqrt{2 π Σ_{O, t, j, k, l}}} \exp {- \frac{{(O_{t, l} - μ_{O, t, j, k, l})}^{2}}{2 Σ_{O, t, j, k, l}}} - - - (17)

对该各正态分布k的输出概率b_1，j，k(O_t)如下式(18)那样乘以来自GMM存储单元94的混合权重w_j，k而获得的全部的分布的输出概率的合计是非音GMM与语音GMM的输出概率b_1，j(O_t)。

[数8]

b_{1, j} (O_{t}) = Σ_{k = 1}^{K} w_{j, k} b_{1, j, k} (O_{t}) - - - (18)

输出概率计算单元115通过式(19)计算以非语音GMM与语音GMM的输出概率b_1，j(O_t)对各正态分布k的输出概率进行标准化后的输出概率w_{0，t，j，k}，并将其输出。

[数9]

w_{O, t, j, k} = \frac{w_{j, k} b_{1, j, k} (O_{t})}{b_{1, j} (O_{t})} - - - (19)

概率权重计算处理单元116将非语音GMM与语音GMM中包含的全部的正态分布k＝1、...、K的标准化后的输出概率w_{0，t，j，k}的分散程度以高次统计量进行参数化，并将非语音GMM与语音GMM的输出概率b_1，j(O_t)进行加权(步骤S116)。图6表示概率权重计算处理单元116的处理流程。

首先，概率权重计算处理单元116将各正态分布k的标准化后的输出概率w_{0，t，j，k}按照降序重新排列，并求出重新排列后的对应的对应正态分布索引SortIdx_t，j，k’(其中，k’＝1、...、K)(步骤S1160)。图7例示用于求出重新排列后的正态分布索引SortIdx_t，j，k’的方法。

图7A表示重新排列前的分类(sort)前标准化输出概率w_{O，t，j，k}与其正态分布的索引k。图7B表示降序重新排列后的分类后标准化输出概率w_{Sort，t，j，k’}的对应分布索引SortIdx_t，j，k’。这样，按照标准化输出概率大的顺序整理各正态分布(步骤S1160)。

若假设帧t的声音信号为非语音信号(j＝0)，则相对于非语音GMM的各正态分布k的分类后输出概率w_{Sort，t，0，k’}的k’的整体的变化幅度小。图8A表示该情况。图8A的横轴是正态分布的索引k’，纵轴是分类后输出概率w_{Sort，t，0，k’}。这样，成为随着索引k’的增加缓慢下降的平稳的特性。另一方面，相对于语音GMM的分类后输出概率w_{Sort，t，j，k’}的k’的整体的变换幅度大，成为图 8B所示的变化急剧的特性。即，若帧t的语音信号为非语音信号，则非语音信号GMM的K个正态分布的输出概率的变化幅度小，语音GMM的K个正态分布的输出概率的变化幅度大。这意味着在分类前，非语音GMM的输出概率的分散程度小，语音GMM的输出概率的分散程度大。在帧t的声音信号为语音信号（j=1）时，该特性的关系相反。

接着，在步骤S1161的尖度计算处理中，利用用于表示该特性的尖锐情况的参数即尖度（4次统计量），表现输出概率的变化的特性。分类后输出概率w_{Sort,t,j,k’}的尖度Kurt_t,j能够通过式（20）来计算。

[数10]

{Kurt}_{t, j} = \frac{Σ_{k' = 1}^{K} {(w_{Sort, t, j, k'} - μ_{w, t, j})}^{4}}{K \cdot {(Σ_{w, t, j})}^{2}} - - - (20)

μ_{w, t, j} = \frac{1}{K} Σ_{k' = 1}^{K} w_{Sort, t, j, k'} - - - (21)

Σ_{w, t, j} = \frac{1}{K} Σ_{k' = 1}^{K} {(w_{Sort, t, j, k'} - μ_{w, t, j})}^{2} - - - (22)

特性（图8）越尖锐，尖度Kurt_t,j越大。这里，式（21）表示全部正态分布的分类后的输出概率w_{Sort,t,j,k’}的平均值，但该值与分类前的平均值相同。式（20）的分子是将分类后的各输出概率w_{Sort,t,j,k’}与平均值的差分的四次方针对全部的输出概率进行加法运算后的值，该值也与分类前的对应的差分的四次方和相同。同样，式（22）表示的平方和的平均，即方差也与分类前的对应的值相同。即，通过式（20）获得的尖度Kurt_t,j与分类前后无关地表示全部正态分布的输出概率的分散程度。另外输出概率的分布程度无需限定于式（20）的定义，可基于各输出概率与平均值的平方和进行各种定义。概率权重计算处理单元116需要对获得尖锐程度小的平稳的特性的正态分布，设置较大的权重，因此在步骤S1162的权重标准化处理中，如式（23）所示，获得将尖度Kurt_t,j的倒数进行标准化后的概率权重w_Kurt,t,j（步骤S1162）。

[数11]

w_{Kurt, t, j} = \frac{\frac{1}{{Kurt}_{t, j}}}{\frac{1}{{Kurt}_{t, 0}} + \frac{1}{{Kurt}_{t, 1}}} - - - (23)

概率权重计算单元116将概率权重w_Kurt，t，j与分类后输出概率w_{Sort，t，j，k’}以及对应正态分布索引SortIdx_t，j，k’输出到必要分布决定处理单元117。

必要分布决定处理单元117取出分类后输出概率w_{Sort，t，j，k’}的值微小的正态分布，仅提取具有充分大的值的正态分布。图9表示该处理流程。首先，将按照降序重新排列后的分类后输出概率w_{Sort，t，j，k’}按照大到小的顺序依次进行加法运算并求出累积值(S1170)。接着，通过式(24)求出持有该累积值达到某规定的值0＜X≤1的最小的分类后输出概率的值的对应分布索引的号码R_t，j。

[数12]

R_{t, j} = \underset{r}{\arg \min} {Σ_{k^{'} = 1}^{r} w_{Sort, t, j, k^{'}} &GreaterEqual; X} - - - (24)

例如，设X＝0.9，则决定分类后输出概率w_{Sort，t，j，k’}的累积值成为0.9的对应分布索引(步骤S1171)。在图7所示的例子中，w_{Sort，t，j，1}+w_{Sort，t，j，2}+w_{Sort，t，j，3}＝0.9≥X，因此选择对应分布索引SortIdx_t，j，1～SortIdx_t，j，3。

然后在步骤S1172的概率再计算处理中，利用选择的正态分布SortIdx_t，j，1～SortIdx_{t，j，(Rt，j)}，再次计算非语音GMM与语音GMM的输出概率b_1，j(O_t)。在该再次计算之前，通过式(25)对GMM参数即混合权重w_j，k(k＝SortIdx_t，j，k’)进行标准化。

[数13]

w_{t, j, SortId x_{t, j, k^{'}}} = \frac{w_{j, SortI {dx}_{t, j, k^{'}}}}{Σ_{k^{'} = 1}^{R_{t, j}} w_{j, SortId x_{t, j, k^{'}}}} - - - (25)

利用该标准化后的混合权重与在输出概率计算处理单元115获得的各正态分布k的输出概率b_1，j，k(O_t)(对k代入SortIdx_t，j，k’)，通过式(26)再次计算非语音GMM与语音GMM的输出概率b_1，j(O_t)。此外，通过式(27)再次计算分类后输出概率w_{Sort，t，j，k’}。

[数14]

b_{1, j} (O_{t}) = Σ_{k^{'} = 1}^{R_{t, j}} w_{t, j, SortI {dx}_{t, j, k^{'}}} b_{1, j, SortI {dx}_{t, j, k^{'}}} (O_{t}) - - - (26)

w_{Sort, t, j, k^{'}} = \frac{w_{t, j, S {ortIdx}_{t, j, k^{'}}} b_{1, j, SortI {dx}_{t, j, k^{'}}} (O_{t})}{b_{1, j} (O_{t})} - - - (27)

接着，在步骤S1173中通过式(28)利用概率权重w_Kurt，t，j对再次计算的输出概率b_1，j(O_t)进行加权。

[数15]

b_w，l，j(O_t)＝w_Kurt，t，j·b_1，j(o_t) (28)

这样利用在概率权重计算处理单元116中获得的概率权重w_Kurt，t，j，从而能够强调非语音GMM的输出概率与语音GMM的输出概率的差异，能够提高非语音/语音的识别性。

第1加权平均处理单元118利用在概率权重计算处理单元116中获得的分类后的输出概率w_{Sort，t，j，k’}，对在参数更新处理单元113中更新的正态分布的参数^N_{t，j，k，l}、^∑_{N，t，j，k，l}进行加权平均，从而获得对应于非语音GMM与语音GMM的噪声参数估计结果^N_t，j，l、^∑_{N，t，j，l}。通过下式进行加权平均。

[数16]

{\hat{N}}_{t, j, l} = Σ_{k^{'} = 1}^{R_{t, j}} w_{Sort, t, j, k^{'}} {\hat{N}}_{t, j, SortI {dx}_{t, j, k^{'}}, l} - - - (29)

{\hat{Σ}}_{N, t, j, l} = Σ_{k^{'} = 1}^{R_{t, j}} w_{Sort, t, j, k^{'}} {\hat{Σ}}_{N, t, j, SortI {dx}_{t, j, k^{'}}, l} - - - (30)

接着，在第2加权平均处理单元119中，利用在必要分布决定处理单元117中再次计算的输出概率b_w，1，j(O_t)，分别通过式(31)、(32)，对在第1加权平均处理单元118中获得的噪声参数估计结果^N_t，j，l、^∑_{N，t，j，l}进行加权平均。通过进行加权平均，获得帧t中的噪声参数估计结果^N_t，l、^∑_N，t，l，并用于以下一个帧的噪声参数的估计。

[数17]

{\hat{N}}_{t, 1} = \frac{b_{w, 1,0} (O_{t})}{b_{w, 1,0} (O_{t}) + b_{w, 1,1} (O_{t})} {\hat{N}}_{t, 0,1} + \frac{b_{w, 1,1} (O_{t})}{b_{w, 1,0} (O_{t}) + b_{w, 1,1} (O_{t})} {\hat{N}}_{t, 1,1} - - - (31)

{\hat{Σ}}_{N, t, 1} = \frac{b_{w, 1,0} (O_{t})}{b_{w, 1,0} (O_{t}) + b_{w, 1,1} (O_{t})} {\hat{Σ}}_{N, t, 0,1} + \frac{b_{w, 1,1} (O_{t})}{b_{w, 1,0} (O_{t}) + b_{w, 1,1} (O_{t})} {\hat{Σ}}_{N, t, 1,1} - - - (32)

在第2加权平均处理单元119中获得的噪声参数估计结果^N_t，l、^∑_N，t，l，被存储在噪声概率模型估计用缓冲器931中。

概率模型参数估计/概率计算单元11进行以上所述的处理，并作为声音信号分析单元10的输出参数而将帧t中的语音/非语音概率b_W，1，0(O_t)、b_W，1，1(O_t)输出到语音/非语音状态概率比计算单元95。

[语音/非语音状态概率比计算单元95]

图10表示语音/非语音状态概率比计算单元95的功能结构例。语音/非语音状态概率比计算单元95包括概率计算单元950、参数存储单元951。

语音/非语音状态概率比计算单元95将语音/非语音概率b_W，1，0(O_t)、b_W，1，1(O_t)作为输入，基于在图11中通过有限状态机械来表现的语音状态/非语音状态的状态转移模型，计算语音状态/非语音状态的状态转移模型。有限状态机械是语音状态/非语音状态的状态转移模型，包含非语音状态H₀、语音状态H₁、向各状态的状态转移概率a_i，j(a_0，0～a_1，1)。i是状态转移源的状态号，j是状态转移目的的状态号。

参数存储单元951包含概率比计算用缓冲器951a、状态转移概率表格951b，状态转移概率表格951b具有向非语音状态H₀以及语音状态H₁的状态转移概率a_0，0～a_1，1的值。状态号0表示非语音状态，状态号1表示语音状态，状态转移概率a_i，j满足a_i，0+a_i，1＝1。

若将帧t中的信号的状态定义为q_t＝H_j，则概率计算单元950通过式(33)计算语音状态概率与非语音状态概率之比L(t)。

[数18]

L (t) = \frac{p (q_{t} = H_{1} | O_{0 : t})}{p (q_{t} = H_{0} | O_{0 : t})} - - - (33)

这里，O_0:t＝{O₀，...，O_t}，概率比L(t)根据贝叶斯定理如下式那样展开。

[数19]

L (t) = \frac{p (q_{t} = H_{1} | O_{0 : t})}{p (q_{t} = H_{0} | O_{0 : t})} = \frac{p (O_{0 : t}, q_{t} = H_{1})}{p (O_{0 : t}, q_{t} = H_{0})} - - - (34)

此外，若考虑噪声信号N_0:t＝{N₀，....，N_t}的时间变动，则式(34)如式(35)那样展开。

[数20]

L (t) = \frac{p (q_{t} = H_{1} | O_{0 : t} {, N}_{0 : t})}{p (q_{t} = H_{0} | O_{0 : t} {, N}_{0 : t})} = \frac{p (O_{0 : t}, q_{t} = H_{1}, N_{0 : t})}{p (O_{0 : t}, q_{t} = H_{0}, N_{0 : t})} - - - (35)

式(35)通过考虑了过去帧的状态的递归式(一次马尔科夫链)，展开成如下式。

[数21]

p (O_{0 : t}, q_{t}, N_{0 : t}) =

\underset{q_{t - 1}}{Σ} p (q_{t} | q_{t - 1}) p (O_{0 : t} | q_{t}, N_{t}) p (N_{t} | N_{t - 1}) p (O_{0 : t - 1}, q_{t - 1}, N_{0 : t - 1}) - - - (36)

这里，相当于p(q_t＝H_j|q_t-1＝H_i)＝α_i，j、p(O_t|q_t＝H_j，N_s)＝b_W，1，j(O_t)、p(N_t|N_t-1)＝1，概率p(O_t，q_t＝H_j，N_t)相当于按照时间顺序方向计算的正向条件概率α_t，j。即，式(36)通过下式的递归式来获得。

[数22]

α_t，j＝(α_t-1，0a_0，j+α_t-1，1a_1，j)b_w，1，j(O_t) (37)

从而，通过式(38)来算出语音状态/非语音状态概率比L(t)。

[数23]

L (t) = \frac{α_{t, 1}}{α_{t, 0}} - - - (38)

图12表示语音/非语音状态概率比计算单元95的处理流程。正向条件概率α_t，j的计算根据该动作流程来进行。

最初在概率比计算用缓冲器951a的读出处理中，从概率比计算用缓冲器951a取出帧t-1的正向条件概率α_t-1，j(步骤S950)。其中，若t＝0，则将正向条件概率α_t，j设定为α_t，0＝1、α_t，1＝0。

接着，概率算出单元950从状态转移概率表格951a取出状态转移概率a_i，j并根据式(37)算出帧t的正向条件概率α_t，j(步骤S951)。然后，概率计算单元950进一步根据式(38)算出概率比L(t)，将正向条件概率α_t，j存储在概率比计算用缓冲器951a(步骤S952)。

[语音信号区间估计单元96]

图13表示语音信号区间估计单元96的功能结构例。语音信号区间估计单元96包括阈值处理单元960与语音信号区间整形单元961，以语音状态/非语音状态概率比L(t)作为输入，判定声音信号A_t的帧t属于语音状态还是非语音状态。

在阈值处理单元960，若语音状态/非语音状态概率比L(t)的值是另外设定的阈值TH以上，则判定为帧t属于语音状态而输出1，若小于阈值TH，则判定为帧t属于非语音状态而输出0。阈值TH的值可以决定为事先固定的值，或者也可以根据声音信号的特征而适当地设定。

语音信号区间整形单元961对在阈值处理单元960中获得的语音区间估计结果进行校正处理，从而进行纠错。纠错中，若在阈值处理单元960中认定为语音的帧连续规定帧数量以上，例如5个帧以上，则设定为语音区间。此外，对于认定为非语音的帧，若持续规定数量以上，则确定为非语音区间。这些规定帧数量例如可以以用于语音区间检测的被称为S持续时间帧、或者用于非语音区间检测的被称为N持续时间帧的变量名设定任意的数即可。

此外，在检测到语音区间中存在的短的非语音区间的情况下，若该非语音区间的持续长度是预先决定的中止(Pause)帧数以下，则也可以将该区间认定为语音区间。通过包括该语音信号区间整形单元961，从而不产生较少帧数量的语音区间与非语音区间，因此能够稳定信号区间检测的动作。将用于表示这样检测到的语音区间、非语音区间的信号作为区间估计信息D_ES而输出。根据需要，也可以将声音信号A_t与用于表示语音区间、非语音区间的信号一并作为区间估计信息D_ES而输出。或者，也可以从检测到的非语音区间中，将声音信号A_t中的各非语音区间的全部样本的振幅设为0，并作为区间估计信息D_ES而输出，也可以从声音信号提取检测到的语音区间，并作为区间估计信息D_ES而输出。或者也可以如虚线表示那样，不进行语音信号区间整形单元961的处理，将阈值处理单元960的估计结果直接作为D_ES来输出。

实施例2

图14表示本发明的语音信号区间估计装置200的功能结构例。语音信号区间估计装置200与语音信号区间估计装置100的不同点在于，包括：信号平均单元50，将多个声道的声音数字信号A_t，ch对每个帧进行平均化；以及第2声音信号分析单元60，利用频率分量功率与非频率分量功率，求出语音概率与非语音概率，区间估计信息生成单元9的语音/非语音状态概率比计算单元95’还利用第2声音信号分析单元60的输出信号算出语音状态/非语音状态概率比L(t)。说明这些不同部分的动作。

[信号平均单元50]

图15表示信号平均单元50的动作流程。信号平均单元50首先将多个声道的声音信号输入在时间轴方向上以一定时间宽度移动起点，并将一定时间长度的声音信号作为帧而分割。例如，对以采样频率8kHz采样的200个样本点(25ms)的声音信号A_t，ch，一边将始点移动80个样本点(10ms)，一边分割给每个声道。此时，例如利用下式(39)的海明(Hamming)窗w(n)进行分割(步骤S50)。

[数24]

w (n) = 0.54 - 0.46 \cdot \cos \frac{2 πn}{Len - 1} - - - (39)

这里，n是帧内的采样号n＝0，1，...，Len-1，Len表示帧的分割波形的采样点数。在此，Len＝200。ch表示声道号ch＝1，...，CH。

接着，根据式(40)，输出对每个对应样本n平均化声音信号A_t，ch，n后的单声道信号即平均化信号A_t，ch(步骤S51)。

[数25]

A_{t, n} = \frac{1}{CH} Σ_{ch = 1}^{CH} A_{t, ch, n} - - - (40)

另外，当输入声音信号为单声道信号的情况下，即在CH＝1的情况下，也可以省略平均化处理(步骤S502)的处理。通过包括信号平均单元50，能够大幅削减处理多声道的输入声音信号时的存储器使用量。

此外，在信号平均单元50中，也可以不进行式(40)所示的输入声音信号的平均化处理，而是利用傅立叶变换对各信道计算输入声音信号的功率谱(power spectrum)，从而进行功率谱级(power spectrum level)的平均化处理，从而输出各信道的平均功率谱。

[第2声音信号分析单元60]

图16表示第2声音信号分析单元60的功能结构例。图17表示其动作流程。第2声音信号分析单元60包括离散傅立叶变换单元61、功率计算单元62、基本频率估计单元63、周期性分量功率计算单元64、减法运算单元65、除法运算单元66、概率计算单元67。

离散傅立叶变换单元61对平均化信号A_t，n进行离散傅立叶变换，从而将平均化信号从时域的信号变换为频域的频谱(步骤S61)。通过式(41)获得平均化A_t，n的频谱X_t(k)。

[数26]

X_{t} (k) = Σ_{n = 0}^{M - 1} A_{t, n} \exp (- j \frac{2 π}{M} kn) - - - (41)

这里，k表示将采样频率M等分后的离散点，M例如使用256。

功率计算单元62根据式(42)，从离散傅立叶变化单元61输出的频谱X_t(k)算出平均化信号A_t，n的平均功率ρ_t(步骤S62)。

[数27]

ρ_{t} = \frac{1}{M} Σ_{k = 0}^{M - 1} {| X_{t} (k) |}^{2} - - - (42)

基本频率估计单元63以功率计算单元62输出的平均功率ρ_t与离散傅立叶变换单元61输出的频谱X_t(k)作为输入，根据式(43)估计平均化信号A_t，n的基本频率f0_t(步骤S63)。利用了频率时的基本频率的估计通过例如记载在以下的参考文献“Nakatani，T.and Irino，T.，“Robust and accurate fundamental frequency estimation based on dominant harmonic components，”Journal of the Acoustical Society of America，Vol.116，pp.3690-3700，2004.”的估计方法来进行.

[数28]

{f 0}_{t} = \underset{g}{\arg \max} (Σ_{k = 1}^{v_{t}} {| X_{t} (kg) |}^{2} - v_{t} ρ_{t}) - - - (43)

这里，将f0_t设为对应于估计基本频率的频谱的BIN号，将argmax(*)设为用于输出使(*)内最大化的g的函数，将v_t设为表示M/g的整数部分的函数。另外，当不利用频谱而估计的情况下，例如通过自相关函数(参考文献“Quatieri，T.F.，“Discrete-time Speech Signal Processing principles and practice，”Prentice-Hall，2002：pp.504-505”)来进行估计。在自相关法中，首先求出自相关函数。在将分割波形的样本点数设为Len，将其第g个样本点的信号的振幅设为x_t(g)时，根据下式来求出自相关函数的系数c_t(g)。

[数29]

c_{t} (g) = \frac{1}{Len} Σ_{k = 1}^{Len - 1 - g} x_{t} (g) x_{t} (g + k) - - - (44)

针对g＝1，...，Len求出自相关函数的系数c_t(g)。接着，在该自相关函数的系数中的g的一定的搜索范围内，在采样频率8kHz时的相当于50Hz～500Hz的例如16≤g≤160的范围内，检测使c_t(g)成为最大的g。其结果所获得的g表示在输入信号的搜索范围中最支配性的周期性分量的周期长度，输入信号为单一的完全的周期信号例如正弦波的情况下，成为相当于其周期长度的值。

周期相分量功率计算单元64以离散傅立叶变换单元61输出的频谱x_t(k)、功率计算单元62输出的平均化信号A_t，n的平均功率ρ_t、基本频率估计单元63输出的基本频率f0_t作为输入，根据式(45)估计平均化信号A_t，n的周期性分量的功率^ρ^p _t(步骤S64)。

[数30]

{\hat{ρ}}_{t}^{p} = η \frac{Σ_{k = 1}^{v_{t}} {| X_{t} (kf 0_{t}) |}^{2} - v_{t} ρ_{t}}{1 - η v_{t}} - - - (45)

η = \frac{2 Σ_{t = 0}^{Len - 1} w {(n)}^{2}}{{(Σ_{t = 0}^{Len - 1} w (n))}^{2}} - - - (46)

这里，将f0_t设为对应于估计基本频率的频谱的BIN号，将v_t设为表示M/g的整数部分的函数。该周期性分量的功率^ρ^p _t也可以不使用频谱进行估计。其估计如下。首先，利用基本频率估计单元63的输出在z区域中的表现中，构成具有由H(z)＝1-z^-f0t来表示的频率特性的梳型滤波器。接着，将该梳型滤波器应用于平均化信号，获得相当于梳型滤波器的频率特性中的零点的部分(基本频率分量及其整数倍的频率分量)的功率被抑制的离散信号。其结果，若将所获得的信号的非周期分量功率设为^ρ^a _t，则通过下式可估计周期性分量的功率。

[数31]

{\hat{ρ}}_{t}^{p} = ρ_{t} - {\hat{ρ}}_{t}^{a} - - - (47)

也可以将这样求出的^ρ^p _t作为周期性分量功率计算单元64的输出。

减法计算单元65通过式(48)，从功率计算单元62输出的功率ρ_t减去周期性分量功率计算单元64输出的周期性分量的功率^ρ^p _t，从而估计周期性分量以外的非周期性分量的功能^ρ^a _t(步骤S65)。

[数32]

{\hat{ρ}}_{t}^{a} = ρ_{t} - {\hat{ρ}}_{t}^{p} - - - (48)

另外，在前述中，首先求出周期性分量功率^ρ^p _t后接着求出了非周期性分量^ρ^a _t，但利用将周期性分量功率^ρ^p _t与非周期性分量功率^ρ^p _t相加等于ρ_t这一点，除了首先求出周期性分量功率^ρ^p _t的方法以外，还可以如下那样先求出非周期性分量功率^ρ^a _t后，通过减法运算单元65求出周期性分量功率^ρ^p _t。

[数33]

{\hat{ρ}}_{t}^{a} = \frac{ρ_{t} - Σ_{k = 1}^{v_{t}} {| X_{t} (kf 0_{t}) |}^{2}}{1 - η v_{t}} - - - (49)

{\hat{ρ}}_{t}^{p} = ρ_{t} - {\hat{ρ}}_{t}^{a} - - - (50)

以如以上那样获得的周期性分量功率^ρ^p _t与非周期性分量功能^ρ^a _t作为输入，在除法运算单元66中，根据式(51)取得它们之间的比例(步骤S66) 并输出。

[数34]

R_{t} (a, p) = \frac{{\hat{ρ}}_{t}^{p}}{{\hat{ρ}}_{t}^{a}} - - - (51)

概率计算单元67以除法运算单元66输出的比的值作为输入，根据下式算出平均化信号属于非语音状态的概率以及属于语音状态的概率b_2，j(ρ_t)(语音/非语音概率)(步骤S67)。

[数35]

b_{2,0} (ρ_{t}) = C_{0} \exp {- \frac{{(R_{t} (a, p))}^{2}}{2}} - - - (52)

b_{2,1} (ρ_{t}) = C_{1} \exp {- \frac{1}{2 {(R_{t} (a, p))}^{2}}} - - - (53)

这里，C₀、C₁是正态分布的常数项，是进行校正使得对exp的项进行积分时的值成为1的系数。

[语音/非语音状态概率比计算单元95’]

在实施例1中，为了根据式(38)计算语音/非语音状态概率比L(t)，使用声音信号分析单元10输出的语音/非语音概率b_w，1，j(O_t)，根据式(37)来求出了正向条件概率α_t，j。实施例2的语音/非语音状态概率比计算单元95’为了根据式(38)来计算语音/非语音状态概率比L(t)，利用对声音信号分析单元10输出的语音/非语音概率b_w，1，j(O_t)乘以第2声音信号分析单元60输出的语音/非语音概率b_2，j(ρ_t)的值，根据式(54)来计算正向条件概率α_t，j，这一点与实施例1中的语音/非语音状态概率比计算单元95不同。除此之外的动作相同。

[数36]

α_t，j＝(α_t-1，0a_0，j+α_t-1，1a_1，j)b_w，1，j(O_t)·b_2，j(ρ_t) (54)

根据实施例2的语音信号区间估计装置200，对语音信号区间估计装置100还考虑基于周期性分量功率与非周期性分量功率的估计误差的语音/非语音概率，因此还可以进一步提高语音信号区间估计的精度。

实施例3

图18表示本发明的附有噪声抑制功能的语音信号区间估计装置300的功能结构例。附有噪声抑制功能的语音信号区间估计装置300对语音信号区间估计装置100追加噪声抑制单元70的结构，从而输出语音信号区间信息、以及抑制了在该语音区间的声音信号中包含的噪声的噪声抑制信号。

噪声抑制单元70以声音信号、声音信号分析单元10输出的语音/非语音概率b_w，1，j(O_t)、以及语音/非语音状态概率比计算单元95输出的语音状态/非语音状态概率比L(t)作为输入，抑制在声音信号A_t中包含的噪声。

图19表示噪声抑制单元70的功能结构例。噪声抑制单元70包括无声用滤波器系数生成单元71、语音用滤波器系数生成单元72、滤波器系数合并单元73、噪声抑制滤波器应用单元74。

无声用滤波器系数生成单元71与语音用滤波器系数生成单元72分别根据在声音信号分析单元10内计算的适应于帧t中的噪声环境的语音/非语音GMM参数μ_{0，t，j，k，l}、∑_{0，t，j，k，l}、以及对应分布索引SortIdx_t，j，1～SortIdx_{t，j，(Rt，j)}，生成用于取出无声分量或语音分量的滤波器系数Filter_t，j，l。对应分布索引例如在图7所示的例子中是对应分布索引SortIdx_t，j，1～SortIdx_t，j，3(这里R_t，j＝3)。

[数37]

{Filter}_{t, 0,1} = (1 - β) Σ_{k^{'} = 1}^{R_{t, 0}} {w_{Sort, t, 0, k^{'}} \frac{\exp {μ_{S, 0, SortId x_{t, j, k^{'}}, l}}}{\exp (μ_{O, t, SortId x_{t, j, k^{'}}, l})}} + β - - - (55)

{Filter}_{t, 1,1} = (1 - β) Σ_{k^{'} = 1}^{R_{t, 1}} {w_{Sort, t, 1, k^{'}} \frac{\exp {μ_{S, 0, SortId x_{t, j, k^{'}}, l}}}{\exp (μ_{O, t, 1, SortId x_{t, j, k^{'}}, l})}} + β - - - (56)

在式(55)与式(56)中，β(0≤β≤1)是用于控制噪声的抑制量的系数，在β＝0时完全抑制噪声，在β＝1时不进行噪声的抑制。

滤波器系数合并单元73接受语音状态/非语音状态概率比L(t)，合并在无声用滤波器系数生成单元71与语音用滤波器系数生成单元72中获得的滤波器系数Filter_t，0，l以及Filter_t，1，l，并根据下式来获得最终的噪声抑制滤波器系数Filter_t，l。

[数38]

Filter_t，1＝α_t，0·Filter_t，0，1+α_t，1·Filter_t，1，1 (57)

另外，α_t，0、α_t，1是根据式(37)算出的正向条件概率，基于α_t，0+α_t，1＝1的定义，根据下式来获得语音状态/非语音状态概率比L(t)。

[数39]

α_{t, 0} = \frac{1}{1 + L (t)} - - - (58)

α_{t, 1} = \frac{L (t)}{1 + L (t)} - - - (59)

噪声抑制滤波器应用单元74通过下式将在滤波器系数合并单元73中获得的噪声抑制滤波器系数Filter_t，l变换为脉冲响应滤波器系数filter_t，n。

[数40]

{filter}_{t, n} = \underset{l}{Σ} {MelDCT}_{l, n} \cdot {Filter}_{t, l} - - - (60)

这里，MelDCTP_m，n是进行了梅尔频率的加权的离散余弦变换(DCT：Discret Cosine Transform)系数。MelDCTP_m，n的计算方法例如记载在参考文献“ETSI ES 202 050 V 1.1.4，“Speech processing，Transmission and Quality aspects(STQ)；Distributed Speech Recognition；Advanced Front-end feature extraction algorithm；Compression algorithms，”November 2005.p.18-p.19“5.1.9Mel IDCT””。从而，省略其说明。

此后，通过对多声道的输入声音信号A_t，ch，n如下式那样卷积脉冲响应filter_t，n，从而获得多声道的噪声抑制语音s_t，ch，n。

[数41]

s_{t, ch, n} = \underset{m}{Σ} {filter}_{t, n - m} \cdot A_{t, ch, m} - - - (61)

该噪声抑制信号s_t，ch，n是噪声抑制单元70的输出信号。另外，以对语音信号区间估计装置100追加噪声抑制单元70的结构的例子进行了说明，但通过对语音信号区间估计装置200追加噪声抑制单元70，还能够构成附有噪声抑制功能的语音信号区间估计装置。

另外，附有噪声抑制功能的语音信号区间估计装置300设为对语音信号区间估计装置100追加了噪声抑制单元70的结构的结构，但也可以设为对上述的语音信号区间估计装置200追加了噪声抑制单元70的结构的附有噪声抑制功能的语音信号区间估计装置。

[实验结果]

进行了评价本发明的语音信号区间估计装置的语音信号区间检测性能的实验。实验条件如下。对数据库利用了用于语音信号区间检测的评价而设计的CENSREC-1-C。CENSREC-1-C包含人工生成的仿真数据与在实际环境中收录的实际数据的两种数据，在本实验中，由于调查实际环境中的噪声以及发音变形的影响等的语音质量劣化的影响，因此利用实际数据进行了评价。CENSREC-1-C表示在参考文献“CENSREC-1-C：雑音下音声区間検出評価基盤の構築、情報処理学会研究報告、SLP-63-1，pp.1-6，Oct.2006.”。

CENSREC-1-C的实际数据的收录在学生食堂与街头这两种环境中进行，SN比(SNR)分别是高SNR(噪声等级60dB(A)前后)与低SNR(噪声等级70dB(A)前后)。(A)表示计测的特性。语音数据以一名说话者将1～12位的连续数字以约2秒间隔说话8～10次的语音作为一个文件进行收录，在各环境中对每个说明书收录4个文件。说话者是10名(男女各5名)(其中评价对象是除了一名男性之外的9名的数据)。

各个信号是以采样频率8kHz、量化比特数16比特离散采样后的单声道信号。对该声音信号，将一帧的时间长度设为25ms(200样本点)，每10ms(80样本点)移动帧的始点后应用了声音信号分析处理与第2声音信号分析处理。

对GMM，利用将12维的对数梅尔谱设为声音特征量的混合分布数32的模型，并分别利用无声信号、去噪语音信号学习。在参数预测处理单元112中用于求出当前帧的噪声概率模型参数预测值的参数ε设定为0.001。必要分布决定处理单元117的阈值X设定为0.9，状态转移概率a_0，0、a_0，1、a_1，0、a_1，1的值分别设定为0.8、0.2、0.9、0.1。语音信号区间估计单元96的阈值处理单元960(图13)的阈值TH的值设定为10，无声用滤波器系数生成单元71与声音用滤波器系数生成单元72(图19)的噪声的抑制控制系数β设定为0.0。

性能的评价通过下式的区间检测正确率Correct rate与区间检测正确精度Accuracy来进行。

[数42]

Correct_rate = \frac{N_{c}}{N} \times 100 [%] - - - (62)

Accuracy = \frac{N_{c} - N_{f}}{N} \times 100 [%] - - - (63)

这里，N是总发话区间数，N_c是正确发话区间检测数、N_f是误发话区间检测数。区间检测正确率Correct rate是用于评价能够检测多少的发话区间的尺度，区间检测正确精度Accuracy是用于评价能够检测多少发话区间而不会过于不足的尺度。

图20表示评价结果。图20的A1、A2表示在CENSREC-1-C数据库规定的基线，图20的B1、B2表示基于在非专利文献2公开的方法的结果，图20的C1、C2表示本发明取得的结果。相对于90.43％的区间检测正确率Correct rate的平均，在本发明中改善了1.6％而成为92.03％。此外，区间检测正确精度Accuracy的平均相对于非专利文献2改善了4.72％。图21B表示在本发明的语音信号区间估计装置中获得的噪声抑制输出的信号波形。图21B是声音输入信号波形。这样通过提案技术，能够有效地抑制噪声。

如上所述，通过本发明的方法，即仅利用必要的分布的概率模型来估计语音信号区间，从而缩短处理时间，并通过在概率权重计算处理单元116中获得的概率权重w_Kurt，t，j加权，从而强调非语音GMM的输出概率与语音GMM的输出概率的差异，从而能够提高非语音/语音的识别性。

另外，说明了在实施例1的参数预测处理单元112中，通过随机游走过程，从一帧之前的估计结果来预测当前帧的参数的方法，但也可以利用自反馈法(线性预测法)等。此时，能够期待根据自反馈系数的次数来提高最终的噪声模型参数的估计性能。此外，代替GMM存储单元94，也可以利用HMM(隐马尔科夫模型)等其他的概率模型作为声音信号的概率模型。

此外，在上述方法以及装置中说明的处理并不限定于根据记载的顺序按照时序执行，也可以根据执行处理的装置的处理能力或需要，设为并列或单独执行。

此外，在通过计算机来实现上述装置中的处理部件的情况下，各装置应有的功能的处理内容通过程序来记述。此外，通过由计算机执行该程序，从而在计算机上实现各装置中的处理部件。

记述了该处理内容的程序能够预先记录在计算机可读取的记录介质。作为计算机可读取的记录介质，例如，可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任何记录介质。具体地说，例如，作为磁记录装置，可以使用硬盘装置、软盘、磁带等，作为光盘，可以使用DVD(数字视频光盘)、DVD-RAM(随机存取存储器)、CD-ROM(只读光盘存储器)、CD-R(可记录)/RW(可重写)等，作为光磁记录介质，可以使用MO(光磁盘)等，作为半导体存储器，可以使用EEP-ROM(电可擦可编只读存储器)等。

此外，通过例如将记录了该程序的DVD、CD-ROM等可移动记录介质进行销售、转让、出借等，从而进行该程序的流通。此外，也可以预先在服务器计算机的记录介质中存储该程序，经由网络，从服务器计算机向其他的计算机转发该程序，从而使该程序流通。

此外，各处理部件也可以通过在计算机上执行规定的程序而构成，这些处理内容的至少一部分也可以通过硬件来实现。

Claims

1.一种语音信号区间估计装置，包括：

声音信号分析单元，以包含语音信号与噪声信号的声音数字信号作为输入，利用对该声音数字信号的每个帧预先生成的无声混合正态分布模型与去噪语音GMM，生成适合噪声环境的非语音GMM与语音GMM，计算从生成的非语音GMM以及语音GMM中除去了最小输出概率的一个以上的正态分布的剩余的正态分布的非语音概率与语音概率，其中GMM表示混合正态分布模型；以及

区间估计信息生成单元，利用上述非语音概率与语音概率，算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率比，并基于算出的上述概率比，生成有关语音区间的信息，并作为语音区间估计信息来输出。

2.如权利要求1所述的语音信号区间估计装置，其中，上述声音信号分析单元包括：

初始噪声概率模型估计处理单元，估计初始的噪声概率模型参数；

参数预测处理单元，根据一个帧之前的噪声概率模型参数的估计结果，通过随机游走过程，预测当前帧的噪声概率模型参数；

参数更新处理单元，以当前帧的噪声概率模型参数作为输入，更新在无声GMM与去噪语音GMM中包含的全部的正态分布的参数；

概率模型参数生成估计处理单元，利用更新后的正态分布的参数、无声GMM以及去噪语音GMM的多个正态分布的参数，生成适合当前帧的噪声环境的非语音GMM与语音GMM；

输出概率计算处理单元，计算在上述生成的GMM中包含的各正态分布的输出概率；

概率权重计算处理单元，以高次统计量将上述各正态分布的输出概率的分散程度进行参数化，从而计算用于将非语音状态与语音状态各自的上述各正态分布的输出概率进行加权的概率权重；

必要分布决定处理单元，去除上述输出概率的值成为微小的正态分布，仅提取具有充分大的输出概率的正态分布；

第1加权平均处理单元，利用概率权重计算单元算出的概率权重，对在上述参数预测处理单元中预测的当前帧的噪声概率模型参数进行加权平均；以及

第2加权平均处理单元，将在第1加权平均处理单元中加权平均后的噪声概率模型参数，仅针对上述必要分布决定处理单元提取的正态分布进行加权平均。

3.如权利要求1所述的语音信号区间估计装置，其中

上述声音信号分析单元包括概率权重计算处理单元，计算上述非语音概率以及语音概率的分散程度，并分别计算用于校正该非语音概率以及语音概率的概率权重，使得分散程度越小，该正态分布的输出概率越大。

4.如权利要求1所述的语音信号区间估计装置，其中

上述声音信号分析单元包括必要分布决定处理单元，将上述输出概率按照由大到小的顺序依次算出累计和，并将产生超过规定值的累计和的输出概率的正态分布决定为应除去的上述最小输出概率的一个以上的正态分布。

5.如权利要求1所述的语音信号区间估计装置，进一步包括：

信号平均单元，针对每个帧，将多声道的上述声音数字信号平均化；以及

第2声音信号分析单元，利用周期分量功率与非周期分量功率，求出语音概率与非语音概率，

上述区间估计信息生成单元对上述声音信号分析单元计算的语音概率以及非语音概率分别乘以上述第2声音信号分析单元求出的语音概率与非语音概率，并利用乘法运算结果算出上述语音/非语音状态概率比。

6.如权利要求1至5的任一项所述的语音信号区间估计装置，

上述区间估计信息生成单元包括：

语音/非语音状态概率比计算单元，算出上述语音/非语音状态概率比；以及

语音信号区间估计单元，根据上述语音/非语音状态概率比，判定该帧的声音信号是语音状态还是非语音状态，并基于判定结果来生成上述语音区间估计信息。

7.如权利要求1至5的任一项所述的语音信号区间估计装置，进一步包括：

噪声抑制单元，以上述区间估计信息生成单元算出的概率比以及上述声音信号分析单元计算的输出概率作为输入，生成噪声抑制滤波器，并抑制上述声音数字信号的噪声。

8.一种语音信号区间估计方法，包括：

声音信号分析过程，以包含语音信号与噪声信号的声音数字信号作为输入，利用对该声音数字信号的每个帧预先生成的无声混合正态分布模型与去噪语音GMM，生成适合噪声环境的非语音GMM与语音GMM的概率模型，计算从生成的非语音GMM以及语音GMM中除去了最小输出概率的一个以上的正态分布的剩余的正态分布的非语音概率与语音概率，其中GMM表示混合正态分布模型；以及

区间估计信息生成过程，利用上述非语音概率与语音概率，算出基于语音状态/非语音状态的状态转移模型的概率比，并基于算出的上述概率比，生成有关语音区间的信息，并作为语音区间估计信息来输出。

9.如权利要求8所述的语音信号区间估计方法，上述声音信号分析过程包括：

初始噪声概率模型估计处理步骤，估计初始的噪声概率模型参数；

参数预测处理步骤，根据一个帧之前的噪声概率模型参数的估计结果，通过随机游走过程，预测当前帧的噪声概率模型参数；

参数更新处理步骤，以当前帧的噪声概率模型参数作为输入，更新在无声GMM与去噪语音GMM中包含的全部的正态分布的参数；

概率模型参数生成估计处理步骤，利用更新后的正态分布的参数、无声GMM以及去噪语音GMM的多个正态分布的参数，生成适合当前帧的噪声环境的非语音GMM与语音GMM；

输出概率计算处理步骤，计算在上述生成的GMM中包含的各正态分布的输出概率；

概率权重计算处理步骤，以高次统计量将上述各正态分布的输出概率的分散程度进行参数化，从而计算用于将非语音状态与语音状态各自的上述各正态分布的输出概率进行加权的概率权重；

必要分布决定处理步骤，去除上述输出概率的值成为微小的正态分布，仅提取具有充分大的输出概率的正态分布；

第1加权平均处理步骤，利用在概率权重计算处理步骤中算出的概率权重，对在上述参数预测处理步骤中预测的当前帧的噪声概率模型参数进行加权平均；以及

第2加权平均处理步骤，将在第1加权平均处理步骤中加权平均后的噪声概率模型参数，仅针对在上述必要分布决定处理步骤中提取的正态分布进行加权平均。

10.如权利要求8所述的语音信号区间估计方法，上述声音信号分析过程包括以下过程：

计算上述非语音概率以及语音概率的分散程度，并校正上述非语音概率以及语音概率，使得分散程度越小，该正态分布的输出概率越大。

11.如权利要求8所述的语音信号区间估计方法，上述声音信号分析过程包括以下过程：

将上述输出概率按照由大到小的顺序依次算出累计和，并将产生超过规定值的累计和的输出概率的正态分布决定为应除去的上述最小输出概率的一个以上的正态分布。

12.如权利要求8所述的语音信号区间估计方法，进一步包括：

信号平均过程，信号平均单元针对每个帧，将多声道的上述声音数字信号平均化；以及

第2声音信号分析过程，利用周期分量功率与非周期分量功率，求出语音概率与非语音概率，

上述区间估计信息生成过程对在上述声音信号分析过程计算的语音概率与非语音概率分别乘以在上述第2声音信号分析过程求出的语音概率与非语音概率，并利用乘法运算结果算出上述语音/非语音状态概率比。

13.如权利要求8至12的任一项所述的语音信号区间估计方法，

上述区间估计信息生成过程包括：语音状态/非语音状态概率比计算过程，语音/非语音状态概率比计算单元算出上述语音/非语音状态概率比；以及语音信号区间估计过程，语音信号区间估计单元根据上述语音/非语音状态概率比，判定该帧的声音信号是语音状态还是非语音状态，并基于判定结果来生成上述语音区间估计信息。

14.如权利要求8至12的任一项所述的语音信号区间估计方法，进一步包括：

噪声抑制过程，以在上述区间估计信息生成过程中算出的概率比以及在上述声音信号分析过程中计算的输出概率作为输入，生成噪声抑制滤波器抑制上述声音数字信号的噪声。