[go: up one dir, main page]

CN101051461A - 特征向量补偿装置和特征向量补偿方法 - Google Patents

特征向量补偿装置和特征向量补偿方法 Download PDF

Info

Publication number
CN101051461A
CN101051461A CNA200710088572XA CN200710088572A CN101051461A CN 101051461 A CN101051461 A CN 101051461A CN A200710088572X A CNA200710088572X A CN A200710088572XA CN 200710088572 A CN200710088572 A CN 200710088572A CN 101051461 A CN101051461 A CN 101051461A
Authority
CN
China
Prior art keywords
vector
compensation
similarity
feature
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200710088572XA
Other languages
English (en)
Inventor
赤岭政巳
益子贵史
丹尼尔·巴雷达
雷姆科·特尤南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101051461A publication Critical patent/CN101051461A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种特征向量补偿装置和特征向量补偿方法。其中,特征提取单元提取输入语音的特征向量。相似性计算单元根据特征向量,针对多个噪声环境中的每一个计算相似度。补偿向量计算单元从存储单元中获取第一补偿向量,根据第一补偿向量计算第二补偿向量,并且通过以相似度作为加权系数使第二补偿向量加权相加,来计算第三补偿向量。补偿单元根据第三补偿向量来补偿特征向量。

Description

特征向量补偿装置和特征向量补偿方法
技术领域
本发明一般涉及语音处理技术,特别是涉及背景噪声环境下的语音处理。
背景技术
在噪声环境下的语音识别中,由于学习时的噪声环境与识别时的噪声环境之间的差异,语音模型的不匹配导致识别性能降低的问题。应对该问题的有效方法之一是在Li Deng,Alex Acero,Li Jiang,JashaDroppo and Xuedong Huang,“High-performance robust speechrecognition using stereo training data”,Proceedings of 2001International Conference on Acoustics,Speech,and Signal Processing,pp.301-304中提出的以立体声为基础的分段线性环境补偿(stereo-based piecewise linear compensation for environments,SPLICE)方法。
SPLICE方法预先从一对干净语音数据和在干净语音数据上叠加了噪声的噪声语音数据中获得补偿向量,利用该补偿向量,使语音识别时的特征向量接近干净语音的特征向量。SPLICE方法也可以被视为降噪的方法。
利用这样一种补偿处理,有报告称,即使在培训条件与识别条件不匹配时,也可以获得较高的识别率。
但是,传统的SPLICE方法仅仅为逐帧地从预先设计的多个噪声环境中选择的单个噪声环境来补偿特征向量,并且预先设计的噪声环境不一定与语音识别时的噪声环境相匹配。因此,由于声音模型的不匹配会导致识别性能的降低。
而且,由于噪声环境的选择是在10至20毫秒短的每帧内进行,因此即使当相同的环境持续一定时间段,也会为每帧选择不同的环境,从而导致识别性能的降低。
发明内容
本发明的第一方面提供一种特征向量补偿装置,用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量,包括:存储单元,针对多个噪声环境中的每一个,在其中存储第一补偿向量;特征提取单元,提取输入语音的特征向量;相似性计算单元,根据所提取的特征向量,针对每个噪声环境计算相似度,所述相似度表示输入语音在所述噪声环境下产生的确定性;补偿向量计算单元,从所述存储单元中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,并且通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和补偿单元,根据第三补偿向量来补偿所提取的特征向量。
本发明的第二方面提供一种用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量的方法,包括以下步骤:提取输入语音的特征向量的步骤;根据所提取的特征向量,针对多个噪声环境中的每一个计算相似度的步骤,所述相似度表示输入语音在所述噪声环境下产生的确定性;补偿向量计算步骤,包括以下步骤:从针对每个噪声环境在其中存储第一补偿向量的存储单元中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,以及通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和根据第三补偿向量来补偿所提取的特征向量的步骤。
附图说明
图1是本发明第一实施方式的特征向量补偿装置的功能框图。
图2是第一实施方式的特征向量补偿处理的流程图。
图3是本发明第二实施方式的特征向量补偿装置的功能框图。
图4是第二实施方式的特征向量补偿处理的流程图。
图5是用于说明第一和第二实施方式的特征向量补偿装置的硬件结构的示意图。
具体实施方式
以下参照附图详细说明本发明的示例性实施方式。
本发明第一实施方式的特征向量补偿装置预先为多个噪声环境设计补偿向量,并将补偿向量存储在存储单元中,在语音识别时计算输入语音针对每个噪声环境的相似度,通过根据所计算的相似度对噪声环境的补偿向量进行加权相加来获得补偿向量,并根据所获得的补偿向量来补偿特征向量。
图1是第一实施方式的特征向量补偿装置100的功能框图。特征向量补偿装置100包括噪声环境存储单元120、输入接收单元101、特征提取单元102、相似性计算单元103、补偿向量计算单元104和特征向量补偿单元105。
噪声环境存储单元120在其中存储利用GMM将多个噪声环境模型化时的高斯混合模型(Gaussian mixture model,GMM)参数、以及作为对应于每个噪声环境的特征向量的补偿向量而预先计算出的补偿向量。
根据第一实施方式,假设预先计算3个噪声环境的参数,包括噪声环境1的参数121、噪声环境2的参数122和噪声环境3的参数123,并存储在噪声环境存储单元120中。噪声环境的数量不限于3个,换言之,可以采用任何希望数量的噪声环境作为参考数据。
噪声环境存储单元120可以由一般使用的任意记录介质构成,例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)。
输入接收单元101将从例如麦克风等输入单元(未示出)输入的语音转换成电信号(语音数据),基于例如脉冲编码调制(PCM)对语音数据执行模拟-数字(A/D)转换,从而将模拟数据转换成数字数据,并输出数字语音数据。输入接收单元101所执行的处理可以通过使用与传统技术的语音信号数字处理相同的方法来实现。
特征提取单元102将从输入接收单元101接收到的语音数据分割成具有规定长度的多个帧,并提取语音的特征向量。帧的长度可以是10至20毫秒。根据第一实施方式,特征提取单元102提取包含梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的静态、Δ和ΔΔ参数的语音的特征向量。
换言之,特征提取单元102使用对梅尔滤波器组分析的输出功率进行离散余弦转换的方法,计算包含13维MFCC、MFCC的Δ和ΔΔ的总共39维特征向量,作为每个分割帧的特征向量。
特征向量不限于上述的特征向量。换言之,只要代表输入语音的特征,任何参数都可以用作特征向量。
相似性计算单元103根据由特征提取单元102提取的特征向量,为预先确定的上述3个噪声环境中的每一个计算相似度,该相似度表示输入语音在每个噪声环境下产生的确定性。
补偿向量计算单元104从噪声环境存储单元120中获取每个噪声环境的补偿向量,并通过利用由相似性计算单元103计算的相似度作为加权系数,对所获取的补偿向量进行加权相加,来计算输入语音的特征向量的补偿向量。
特征向量补偿单元105使用由补偿向量计算单元104计算的补偿向量来补偿输入语音的特征向量。特征向量补偿单元105通过使补偿向量与特征向量相加来补偿特征向量。
图2是第一实施方式的特征向量补偿处理的流程图。
首先,输入接收单元101接收用户发出的语音的输入(步骤S201)。输入语音由输入接收单元101转换成数字语音信号。
特征提取单元102将语音信号分割成10毫秒的帧,并提取每帧的特征向量(步骤S202)。特征提取单元102如上所述通过计算MFCC的特征向量yt来提取特征向量。
相似性计算单元103根据由特征提取单元102提取的特征向量yt,计算针对预先确定的每个噪声环境的帧的语音的相似度(步骤S203)。当噪声环境模型为e时,假设时刻t的特征向量yt,则将相似度如式(1)所示计算为噪声环境e的事后概率p(e|yt):
p ( e | y t ) = p ( y t | e ) p ( e ) p ( y t ) - - - ( 1 )
其中,p(yt|e)为特征向量yt在噪声环境e中出现的概率,p(e)和p(yt)分别是噪声环境e的事前概率和特征向量yt的概率。
当假设p(yt)独立于噪声环境、每个噪声环境的事前概率相同时,事后概率p(e|yt)可以利用式(2)计算:
p(e|yt)=αp(yt|e)                            (2)
其中,p(yt|e)和α分别利用式(3)和式(4)计算:
p ( y t | e ) = Σ s N ( y t ; μ s ′ e Σ x e ) p ( s ) - - - ( 3 )
α = 1 / Σ alle p ( y t | e ) - - - ( 4 )
其中,N是高斯分布,p(s)是GMM的每个分量的事前概率,特征向量yt利用GMM模型化。GMM的参数,即平均向量μ和协方差矩阵∑,可以利用最大期望(expectation maximization,EM)算法来计算。
可以使用将在噪声环境中准备的大量特征向量作为培训数据的隐藏式马可夫模型开发工具(Hidden Markov Model Toolkit,HTK)来获得GMM参数。HTK广泛应用于语音识别来培训HMM。
补偿向量计算单元104通过利用由相似性计算单元103计算的相似度作为加权系数,对为每个噪声环境预先计算的补偿向量rs e进行加权相加,来计算输入语音的特征向量的补偿向量rt(步骤S204)。利用式(5)计算补偿向量rt
r t = Σ e p ( e | y t ) r t e - - - ( 5 )
其中,利用下式计算rt e
r t e = Σ s p ( s | y t ) r s e - - - ( 6 )
即,通过基于与传统的SPLICE方法相同的方法来对预先计算的补偿向量rs e进行加权相加,来计算每个噪声环境e的补偿向量rt e(式(6))。然后,通过利用相似度作为加权系数来对每个噪声环境e的补偿向量rt e进行加权相加,来计算输入语音的特征向量的补偿向量rt(式(5))。
可以使用与传统的SPLICE方法相同的方法来计算补偿向量rs e。对于给定的大量组(xn,yn),其中n为正整数,xn为干净语音数据的特征向量,yn为每个噪声环境中的噪声语音数据的特征向量,则补偿向量rs e可以利用式(7)计算,其中表示噪声环境的上标“e”被省略,如下所示:
r s = Σ n p ( s | y n ) ( x n - y n ) Σ n p ( s | y n ) - - - ( 7 )
其中,利用式(8)计算p(s|yn):
p ( s | y n ) = p ( y n | s ) p ( s ) Σ s p ( y n | s ) p ( s ) - - - ( 8 )
GMM参数和以上述方式计算的补偿向量被预先存储在噪声环境存储单元120中。因此,在步骤S204中,使用存储在噪声环境存储单元120中的每个噪声环境的补偿向量rs e来计算补偿向量rt
最后,特征向量补偿单元105通过使由补偿向量计算单元104计算的补偿向量rt与在步骤S202中计算的特征向量yt相加,来进行特征向量yt的补偿(步骤S205)。
以上述方式补偿后的特征向量被输出到语音识别装置。使用特征向量的语音处理不限于语音识别处理。本实施方式的方法可以应用于例如说话者识别等任何类型的处理。
这样,在特征向量补偿装置100中,利用多个噪声环境的线性组合来近似未知的噪声环境,因此,可以以更高的精度来补偿特征向量,从而即使当执行语音识别时的噪声环境与进行设计时的噪声环境不匹配时,也可以以高精度来计算特征向量。因此,可以利用特征向量来实现较高的语音识别性能。
在传统方法的特征向量补偿中,仅为输入语音信号的每一帧选择一个噪声环境,当在选择噪声环境中存在错误时,语音识别性能大大降低。相反,本实施方式的特征向量补偿方法根据相似度线性地组合多个噪声环境,而不是仅选择一个噪声环境,从而即使由于某种原因在相似度的计算中存在错误,对于补偿向量的计算的影响也足够小,从而性能降低程度小。
根据第一实施方式,每个时刻t的噪声环境的相似度仅从时刻t的特征向量yt获取,然而,本发明第二实施方式的特征向量补偿装置同时使用时刻t之前和之后的时刻的多个特征向量来计算相似度。
图3是第二实施方式的特征向量补偿装置300的功能框图。特征向量补偿装置300包括噪声环境存储单元120、输入接收单元101、特征提取单元102、相似性计算单元303、补偿向量计算单元104和特征向量补偿单元105。
根据第二实施方式,相似性计算单元303的功能不同于第一实施方式的相似性计算单元103。其它单元和功能与图1所示的第一实施方式的特征向量补偿装置100相同。对于具有相同功能的单元,使用相同的附图标记并省略具体的说明。
相似性计算单元303使用多个帧的时间窗口中的特征向量来计算相似度。
图4是第二实施方式的特征向量补偿处理的流程图。
从步骤S401到步骤S402的处理按照与特征向量补偿装置100所执行的、从步骤S201到S202的处理相同的方式执行,因而省略具体的说明。
在步骤S402中提取了特征向量后,相似性计算单元303计算所提取的特征向量在每个噪声环境中出现的事件的概率(出现概率)。
接着,相似性计算单元303使用通过使在每个时刻的帧中计算出的出现概率进行加权相乘而得到的值,来计算时刻t的帧的归属度(步骤S404)。换言之,相似性计算单元303使用式(9)计算相似度p(e|yt-a:t+b),其中a和b为正整数,yt-a:t+b是从时刻t-a到时刻t+b的特征向量序列。
p(e|yt-a:t+b)=αp(yt-a:t+b|e)                   (9)
其中,式(9)中的p(yt-a:t+b|e)和α分别利用式(10)和式(11)计算。
p ( y t - a : t + b | e ) = Π t = - a b ( Σ s N ( y t + t ; μ s ′ e Σ s e ) p ( s ) ) w ( T ) - - - ( 10 )
Figure A20071008857200112
其中,w(τ)是每个时刻t+τ的加权。w(τ)的值例如可以设定成对于所有的τ值都为w(τ)=1,或者可以设定成随着τ值的绝对值的增大而减小。然后,可以利用以上述方式计算的相似度p(e|yt-a:t+b),以与式(5)相同的方式获得补偿向量rt
即,补偿向量计算单元104使用在步骤S404中计算的相似度,以与第一实施方式中的步骤S204相同的方式,计算补偿向量rt(步骤S405)。
特征向量补偿单元105以与第一实施方式中的步骤S205相同的方式,使用补偿向量rt来补偿特征向量yt(步骤S406),完成补偿特征向量的处理。
这样,在第二实施方式的特征向量补偿装置中,利用多个特征向量来计算相似度,因此,可以抑制补偿向量的突然变化,从而以较高的精度来计算特征向量。因此,可以利用特征向量来实现较高的语音识别性能。
图5是用于说明第一和第二实施方式中的任意一个的特征向量补偿装置的硬件结构的示意图。
特征向量补偿装置包括例如中央处理单元(CPU)51等控制设备、例如只读存储器(ROM)52和随机存取存储器(RAM)53等存储设备、用于经由网络执行通信的通信接口(I/F)54和连接上述部件的总线61。
在特征向量补偿装置中执行的计算机程序(以下称为“特征向量补偿程序”)由预装在其中的例如ROM52等存储设备提供。
相反,可以通过将特征向量补偿程序作为可安装格式或可执行格式的文件存储在例如高密度盘-只读存储器(CD-ROM)、软盘(FD)、高密度盘-可记录(CD-R)和数字通用盘(DVD)等计算机可读记录介质中来提供。
另外可选的是,可以将特征向量补偿程序存储在与因特网等网络连接的计算机中,以便可以通过网络下载程序。另外可选的是,可以通过因特网等网络来提供或分配特征向量补偿程序。
特征向量补偿程序构成为模块结构,该模块结构包括上述功能单元(输入接收单元、特征提取单元、相似性计算单元、补偿向量计算单元和特征向量补偿单元)。因此,作为实际的硬件,CPU51从ROM52读出特征向量补偿程序来执行该程序,从而使上述功能单元装载在计算机的主存储器上,并在主存储器上生成。

Claims (10)

1.一种特征向量补偿装置,用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量,包括:
存储单元,针对多个噪声环境中的每一个,在其中存储第一补偿向量;
特征提取单元,提取输入语音的特征向量;
相似性计算单元,根据所提取的特征向量,针对每个噪声环境计算相似度,所述相似度表示输入语音在所述噪声环境下产生的确定性;
补偿向量计算单元,从所述存储单元中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,并且通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和
补偿单元,根据第三补偿向量来补偿所提取的特征向量。
2.如权利要求1所述的特征向量补偿装置,其中,
存储单元在其中存储在利用高斯混合模型将噪声环境模型化时取得的参数,
相似性计算单元从存储单元中获取所述参数,根据所获取的参数,针对每个噪声环境计算表示特征向量出现的确定性的第一似然,并且根据计算出的第一似然来计算相似度。
3.如权利要求1所述的特征向量补偿装置,其中,
补偿单元通过将第三补偿向量与特征向量相加来补偿特征向量。
4.如权利要求1所述的特征向量补偿装置,其中,
存储单元针对每个噪声环境在其中存储根据作为噪声环境下的语音的噪声语音和作为没有噪声的环境下的语音的干净语音而计算出的第一补偿向量。
5.如权利要求1所述的特征向量补偿装置,其中,
特征提取单元提取输入语音的梅尔频率倒谱系数作为特征向量。
6.如权利要求1所述的特征向量补偿装置,其中,
相似性计算单元根据在第一时刻之前和之后中的至少一方的预定范围内的多个时刻所提取的多个特征向量,来计算相似度。
7.如权利要求6所述的特征向量补偿装置,其中,
存储单元在其中存储在利用高斯混合模型将噪声环境模型化时取得的参数,
相似性计算单元从存储单元中获取所述参数,根据所获取的参数,对于包含在所述范围内的每个时刻,针对每个噪声环境计算表示特征向量出现的确定性的第二似然,通过利用预定的第一系数作为加权系数使计算出的第二似然加权相乘,来计算表示第一时刻的特征向量出现的确定性的第一似然,并且根据计算出的第一似然来计算相似度。
8.如权利要求7所述的特征向量补偿装置,其中,
相似性计算单元计算作为计算出的第二似然之积的第一似然,并根据所计算的第一似然来计算相似度。
9.如权利要求7所述的特征向量补偿装置,其中,
所述第一系数以下述方式来预定:针对与第一时刻具有较大差异的时刻的第一系数的值小于针对与第一时刻具有较小差异的时刻的第一系数的值。
10.一种用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量的方法,包括以下步骤:
提取输入语音的特征向量的步骤;
根据所提取的特征向量,针对多个噪声环境中的每一个计算相似度的步骤,所述相似度表示输入语音在所述噪声环境下产生的确定性;
补偿向量计算步骤,包括以下步骤:
从针对每个噪声环境在其中存储第一补偿向量的存储单元中获取第一补偿向量,
根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量,以及
通过以相似度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿向量;和
根据第三补偿向量来补偿所提取的特征向量的步骤。
CNA200710088572XA 2006-04-06 2007-03-16 特征向量补偿装置和特征向量补偿方法 Pending CN101051461A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006105091 2006-04-06
JP2006105091A JP4245617B2 (ja) 2006-04-06 2006-04-06 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Publications (1)

Publication Number Publication Date
CN101051461A true CN101051461A (zh) 2007-10-10

Family

ID=38680870

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200710088572XA Pending CN101051461A (zh) 2006-04-06 2007-03-16 特征向量补偿装置和特征向量补偿方法

Country Status (3)

Country Link
US (1) US20070276662A1 (zh)
JP (1) JP4245617B2 (zh)
CN (1) CN101051461A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426837A (zh) * 2011-12-30 2012-04-25 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
WO2014114048A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
CN104952450A (zh) * 2015-05-15 2015-09-30 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置
CN106033669A (zh) * 2015-03-18 2016-10-19 展讯通信(上海)有限公司 语音识别方法及装置
CN109155128A (zh) * 2016-05-20 2019-01-04 三菱电机株式会社 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4843646B2 (ja) * 2008-06-16 2011-12-21 日本電信電話株式会社 音声認識装置とその方法と、プログラムと記録媒体
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
JP2010230913A (ja) * 2009-03-26 2010-10-14 Toshiba Corp 音声処理装置、音声処理方法、及び、音声処理プログラム
EP2579254B1 (en) * 2010-05-24 2017-07-12 Nec Corporation Signal processing method, information processing device, and signal processing program
US9299338B2 (en) 2010-11-08 2016-03-29 Nec Corporation Feature sequence generating device, feature sequence generating method, and feature sequence generating program
JP5716595B2 (ja) 2011-01-28 2015-05-13 富士通株式会社 音声補正装置、音声補正方法及び音声補正プログラム
JP6082304B2 (ja) * 2012-04-17 2017-02-15 キヤノン株式会社 画像処理装置及びその処理方法
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
JP2016038513A (ja) * 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
WO2018163328A1 (ja) * 2017-03-08 2018-09-13 三菱電機株式会社 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN109841227B (zh) * 2019-03-11 2020-10-02 南京邮电大学 一种基于学习补偿的背景噪声去除方法
CN112289325A (zh) * 2019-07-24 2021-01-29 华为技术有限公司 一种声纹识别方法及装置
WO2021258240A1 (en) * 2020-06-22 2021-12-30 Qualcomm Incorporated Voice or speech recognition in noisy environments

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6188982B1 (en) * 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
JPH11296192A (ja) * 1998-04-10 1999-10-29 Pioneer Electron Corp 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7516071B2 (en) * 2003-06-30 2009-04-07 International Business Machines Corporation Method of modeling single-enrollment classes in verification and identification tasks
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
US7584097B2 (en) * 2005-08-03 2009-09-01 Texas Instruments Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426837B (zh) * 2011-12-30 2013-10-16 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
CN102426837A (zh) * 2011-12-30 2012-04-25 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
WO2014114048A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
CN103971680A (zh) * 2013-01-24 2014-08-06 华为终端有限公司 一种语音识别的方法、装置
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
CN106033669A (zh) * 2015-03-18 2016-10-19 展讯通信(上海)有限公司 语音识别方法及装置
CN104952450A (zh) * 2015-05-15 2015-09-30 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置
CN104952450B (zh) * 2015-05-15 2017-11-17 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置
CN109155128A (zh) * 2016-05-20 2019-01-04 三菱电机株式会社 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
CN109155128B (zh) * 2016-05-20 2022-12-27 三菱电机株式会社 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备

Also Published As

Publication number Publication date
JP2007279349A (ja) 2007-10-25
US20070276662A1 (en) 2007-11-29
JP4245617B2 (ja) 2009-03-25

Similar Documents

Publication Publication Date Title
CN101051461A (zh) 特征向量补偿装置和特征向量补偿方法
CN101051462A (zh) 特征矢量补偿设备和特征矢量补偿方法
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
CN105976812B (zh) 一种语音识别方法及其设备
Borsos et al. Speechpainter: Text-conditioned speech inpainting
TW200306526A (en) Method for robust voice recognition by analyzing redundant features of source signal
CN111465982B (zh) 信号处理设备和方法、训练设备和方法以及程序
US6182036B1 (en) Method of extracting features in a voice recognition system
CN1454380A (zh) 具有多个话音识别引擎的话音识别系统和方法
CN113724718A (zh) 目标音频的输出方法及装置、系统
Chen et al. Improving Mask Learning Based Speech Enhancement System with Restoration Layers and Residual Connection.
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
CN109243429A (zh) 一种语音建模方法及装置
CN110931045A (zh) 基于卷积神经网络的音频特征生成方法
CN105448302A (zh) 一种环境自适应的语音混响消除方法和系统
CN1521729A (zh) 使用隐轨迹和隐马尔可夫模型进行语音识别的方法
CN1760974A (zh) 用于语音分类和语音识别的隐藏条件随机场模型
JPH08123484A (ja) 信号合成方法および信号合成装置
Ju et al. Tea-pse 3.0: Tencent-ethereal-audio-lab personalized speech enhancement system for icassp 2023 dns-challenge
Le et al. G2G: TTS-driven pronunciation learning for graphemic hybrid ASR
CN1534596A (zh) 使用残差模型用于共振峰追踪的方法和装置
EP1771841B1 (en) Method for generating and using a vector codebook, method and device for compressing data, and distributed speech recognition system
CN104143330A (zh) 语音识别方法和语音识别系统
Wu et al. A fused speech enhancement framework for robust speaker verification
Naini et al. Dual attention pooling network for recording device classification using neutral and whispered speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20071010