[go: up one dir, main page]

CN1308910C - 用于构成语音识别参数的方法 - Google Patents

用于构成语音识别参数的方法 Download PDF

Info

Publication number
CN1308910C
CN1308910C CNB028077741A CN02807774A CN1308910C CN 1308910 C CN1308910 C CN 1308910C CN B028077741 A CNB028077741 A CN B028077741A CN 02807774 A CN02807774 A CN 02807774A CN 1308910 C CN1308910 C CN 1308910C
Authority
CN
China
Prior art keywords
signal
digitized voice
voice signal
spectrum
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB028077741A
Other languages
English (en)
Other versions
CN1500260A (zh
Inventor
杜尚·马踌
程燕鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1500260A publication Critical patent/CN1500260A/zh
Application granted granted Critical
Publication of CN1308910C publication Critical patent/CN1308910C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Analogue/Digital Conversion (AREA)
  • Telephone Function (AREA)

Abstract

一种适于在分布式语音识别环境中使用的语音样本特征化前端。将数字化的语音样本(31)在低频通路(32)和高频通路(33)之间进行分割。两条通路都用于判断频谱内容,这适用于判断用于识别的、特征化语音样本的语音识别参数(诸如倒谱系数)的情况。所述低频通路(32)具有彻底的降噪能力。在一个实施例中,所述高频通路33使用降噪的结果来帮助除噪,而不需要具有与所述低频通路32所使用的相同级别的资源能力。

Description

用于构成语音识别参数的方法
技术领域
本发明一般涉及语音识别,更具体地说,涉及分布式语音识别。
背景技术
语音识别技术是众所周知的。许多语音识别技术是用于将语音信息数字化和进行后续的处理以利于支持语音识别信息本身的模式匹配工作的。这种处理过程通常包括将语音信息的某个方面特征化并以某种形式(诸如用倒谱系数(cepstral coefficient))将那些特征化的方面表现出来。一般来说,随着模式匹配资源的增加,使用任何给定的特征化方法的给定的语音识别技术的精度、速度、和可靠性都将提高。不幸的是,对于很多应用来说,在那些只有非常有限的资源的小型、便携式用户设备中通常会需要语音识别活动的结果。而这些设备上的语音识别通常需要忍受缺乏这种资源的痛苦。一种建议的解决方案是至少部分地在用户设备中将语音进行特征化,然后将特征化的信息提供给具有大量资源的远程设备(诸如语音识别服务器)。然后就可以使用这些资源来完成识别过程并将其结果提高到预想的精度。其中一种这样的分布式解决方案是这样设计的:将适当地在8KHz频段内处理和特征化语音信号,从而提供所谓的服务的电话波段等级。然而,也有的实例希望在具有更宽频段的波段(诸如16KHz的频段)的情况下工作的。不幸的是,这种8KHz的解决方案不易于进行伸缩以简单适应增加了带宽的信号。然而,与此同时,许多8KHz的解决方案在它们的所被期望的使用领域中是有效的并代表了这种应用的理想实施例。
一种解决方案是为了处理更大带宽的信号而简单地提供完全分离的实施例。然而,这种解决方案需要完全类似的方法,其需要提供相应的高等级的资源。
发明内容
根据本发明的一个方面,提供一种生成语音识别参数的方法,包括步骤:提供数字化的语音信号;使用所述数字化的语音信号来提供:只包括所述数字化的语音信号的第一部分的第一信号,和只包括所述数字化的语音信号的第二部分的第二信号,其中所述数字化的语音信号的所述第一部分和所述第二部分至少部分不同;对所述第一信号进行处理以至少减少可能在所述第一信号中出现的部分噪音,从而提供第一降噪信号;对所述第二信号进行处理,以至少减少可能在所述第二信号中出现的部分噪音,并进一步将所述第二信号作为所述第一降噪信号的函数而进行处理,从而提供第二降噪信号;使用所述第一降噪信号来生成第一组频谱信息;使用所述第二降噪信号来生成第二组频谱信息;根据所述第一和第二组频谱信息来生成语音识别参数,其中所述语音识别参数对应于所述数字化语音信号。
根据本发明的另一方面,提供一种生成语音识别参数的方法,包括步骤:提供数字化语音信号;对所述数字化语音信号进行低通滤波以提供第一数字化语音信号;对所述数字化语音信号进行高通滤波以提供第二数字化语音信号;使用第一处理过程来处理所述第一数字化语音信号,从而:提供相应的谱估计,至少减少可能在所述第一信号中出现的部分噪音从而提供降噪的第一数字化语音信号,和提供与所述数字化语音信号相对应的低频信息;根据所述第二数字化语音信号提供经过处理的信号;将所述经过处理的信号作为所述相应的谱估计的函数而进行处理,从而提供编码的表示;将所述编码的表示作为所述降噪的第一数字化语音信号的函数而进行处理,从而提供解码的表示;对所述经过处理的信号进行处理,以产生基于所述第二数字化语音信号的生成信号,并进一步将所述生成信号作为所述解码表示的函数而进行处理,从而至少降低可能在所述信号中出现的部分噪音,并提供生成的对应于所述数字化语音信号的高频信息;将所述生成的高频信息与对应于所述数字化语音信号的低频信息进行合并,从而为所述数字化语音信号提供合并的频谱信息;根据所述合并的频谱信息来生成语音识别参数,其中所述语音识别参数对应于所述数字化语音信号。
附图说明
通过提供在下面详细描述的、特别结合附图来研究的用于构成语音识别参数的方法,至少可以部分地满足上述需要,在这些附图中:
图1是图解说明样本语音信号的时间/频率图;
图2是根据本发明的实施例的高级流程图;和
图3是根据本发明的实施例的框图。
本领域一般技术人员应当理解,图中的元素是出于简化和清楚的目的而示出的,并且不需要将它们按比例画出。例如,为了有助于更好的理解本发明的各种实施例,图中的一些元素的尺寸相对于其它元素来说是夸大了的。
具体实施方式
语音信息通常在较低的频率下会比在较高的频率下包含更多的信息。例如,参看图1,一连串的语音话语在较低的频率区域11(例如从0Hz到4KHz)中通常将会比在较高的频率区域12(例如从4KHz到8KHz)中包含更多的声谱内容。因此,只处理语音信号的较低频率的内容就至少可以进行一定程度上的语音识别。然而,对于许多语音样本来说,在较高的频率确实包含一些内容,有或者没有较高频率的内容可以并将会影响到语音识别引擎对给定的语音话语的识别能力。因此,如同前面注明的,在特征化给定的语音话语时有时希望包括这种高频声谱内容。
一般来说,参看图2,依照下面提出的各种实施例,提供了数字化的语音信号(步骤21),然后根据它,提供至少两个信号(信号1和信号2)(步骤22)。根据信号1生成第一组频谱信息(步骤23),根据信号2生成第二组频谱信息(步骤24)。然后使用这两个组频谱信息来生成对应于数字化的语音信号的语音识别参数(步骤25)。在一个实施例中,信号1属于经过低通滤波的数字化语音信号,而信号2属于经过高通滤波的数字化语音信号。语音识别参数可以是(例如)倒谱系数,该系数是基于为两个有限带宽的信号通路提供的频谱信息的。在一个实施例中,可以对信号1进行加强处理的降噪处理。然后降噪处理带来的好处可以扩展到信号2中而不需要对它的资源进行同等的处理。如果希望的话,可以使用所建立的电话波段分布式语音识别技术来构成第一组频谱信息,从而可以当支持电话波段专用的分布式语音识别技术时允许使用信号1的通路,而当支持带宽较宽的分布式语音识别技术时则允许结合信号2的通路来使用信号1的通路。
现在参看图3,将对上面一般性描述的实施例进行详细描述。
数字化语音信号31(在这个例子中,数字化语音信号包含构成以奈奎斯特采样率(Nyquist sampling rate)采样的8KHz语音信号的16KHz的信号)输入到第一通路32(包含低频通路)和第二通路33(包含高频通路)中。
如本领域技术人员所知,低频第一通路32具有作为低通滤波器34(在这个例子中,被校准为具有0到4KHz的带通范围)使用的正交镜像滤波器(QMF)。然后有限频率的结果输出到抽取器(decimator)35,在这里结果按2的倍数抽取以减少表示位的个数。然后如同已知的,就把经过抽取的有限频率的结果传递给降噪和语音识别参数特征化单元36。单元36包括降噪器37、信噪比波形处理器38、和测定mel频标倒谱系数(mel frequency cepstral coefficient)的单元39。降噪器37实质上是进行初次降噪。这种降噪器可以基于维纳(Wiener)滤波器理论并通过(例如)诸如在Agarwal和Cheng所著的“Two-StageMel-Warped Wiener Filter for Robust Speech Recognition(用于鲁棒语音识别的两级mel弯曲维纳滤波器)”(ASRU Keystones,1999年12月)中提出的两极Mel频域处理来实施。信噪比波形处理器38进行额外的降噪处理,它加强高信噪比的波形部分并降低低信噪比的波形部分,其可以通过(例如)在Macho和Cheng所著的“SNR-DependentWaveform Processing for Improving the Robustness of ASR Front-End(用于提高ASR前端鲁棒性的基于SNR的波形处理)”(ProceedingICASSP 2001,Salt Lake City,2001年5月)中所讲的处理技术来实施。mel频标倒谱系数测定仪39为低频除噪的信号处理(通常使用快速傅立叶变换)谱估计信息(通常用23个这种系数来表示低频信息)。除倒谱系数之外,测定仪39通常还将产生构成能量参数的另一个参数,这个参数表示整个信号1的频段的能量的对数值。对这个系数的测定在本领域中是公知的。
上述单元实质上都是支持生成用于适当地特征化初始语音信号(具体地说,在这个例子中,是初始语音信息的0-4KHz部分)的低频分量的语音识别参数的。如同在前面所注明的,这种配置不容易伸缩以适应具有更宽的频带宽度的输入。具体地说,降噪器37相对来说是比较复杂的、资源密集的,并且是专门为使用有限带宽的输入而设计的,当希望适应更宽的带宽输入的时候就会遇到很大的设计挑战。
第二信号通路33作为对上述第一信号通路32的能力的补充,可以让单元结合起来适当地处理更宽的带宽输入。
第二信号通路33包括另一个作为高通滤波器40(具体地说,让4KHz到8KHz之间的原有语音信息通过)使用的正交镜像滤波器。这个高通滤波的结果输出到抽取器和频谱变换器41,抽取器和频谱变换器41将输入的位作为“2”的函数进行抽取并由此转换频谱内容,并且,因此,就将原来的4KHz到8KHz的频段搬移到0Hz到4KHz的频段。然后谱估计器42就使用快速傅立叶变换来估计该结果的频谱内容。然后这个谱估计信息就穿过mel滤波器组50以得到三个计算出的能量来表示高通信号的频谱内容。
然后沿着两个不同的通路来处理这些计算结果。在第一条通路中,结果传送给语音活动探测器和频谱减法器43。在这里,简单的基于能量的语音活动探测器使用三个mel滤波器组的能量来估计在高频段能量中的噪音(这里用N(l)表示)。然后频谱减法器就应用这三个带噪音的高频段能量。这可以用下式表示:
( 1 ) - - - S ^ _ SS HF ( l ) = log ( max { X HF ( l ) - αN ( l ) , β X HF ( l ) } )
其中,XHF(l)是对数运算之前的mel间隔的高频段能量,α和β是常数,如本领域技术人员所知。然后就按照下述方式使用频谱减法处理的结果。
在第二条通路中,三个mel滤波器组的能量就在编码器46中作为来自低通信号通路32的信息的函数进行编码。具体地说,来自降噪器37的谱估计值在充分地(或任意地)降噪之前,由三个mel滤波器组45处理以产生三个mel间隔的、频率范围从2到4KHz的低频段能量的对数(在这里用表达式SLF(k)表示)。然后使用这些能量来对由高通信号通路33的mel滤波器组50提供的三个mel间隔的高通波段能量的对数进行编码(在这里用表达式SHF(l)表示)。因此,编码可以表示成:
(2)Code(k,l)=SLF(k)-SHF(l)
然后在解码器48中将这些编码的值作为降噪的低通波段信号的函数而解码(具体地说,在表示降噪后的谱估计值的系数计算器30中得到快速傅立叶变换的结果)。除噪后的低通波段谱估计值穿过另一个mel滤波器组47以提供三个mel间隔的低频波段能量的对数(在这里用表达式
Figure C0280777400102
表示)。因此解码器48的输出可以表示成:
( 3 ) - - - S ^ _ cod e HF ( l ) = Σ k = 1 3 w code ( k ) · ( S ^ LF ( k ) - Code ( k , l ) )
其中wcode(k)根据经验设置的基于频率的权。
然后,如上所述的解码器48的输出 和语音活动探测器和频谱减法器43的输出
Figure C0280777400105
由合并器44合并。这个操作可以表示为:
( 4 ) - - - S ^ HF ( l ) = λ · S ^ _ code HF ( l ) + ( 1 - λ ) · S ^ _ SS HF ( l )
其中λ是为了适于的具体应用而选择的根据经验设置的常数。对于上述的实施例和所选择的频率范围来说,将λ设置为0.7可以得到好的结果。
这个解码过程的结果是解码的高频段频谱内容,它反映了不同于低通信号通路单元36所提供的降噪结果。在测试的时候,上述实施例获得了显著提高的识别性能。具体地说,当基于识别器引擎的训练和测试之间的各种不同的不匹配度,用E.T.S.I标准化工程STQ WI008中使用的语音数据库测试的时候,单独与低波段结构的例子相比,上述实施例平均识别率相对提高了9.7%。
本领域中的一般技术人员应当认识到,在不背离本发明的精神和范围的前提下,可以对上述实施例进行各种修改、变更和合并,并且这些修改、变更和合并可以看作是在本发明的概念的范围之内的。

Claims (9)

1.一种生成语音识别参数的方法,包括:
-提供数字化的语音信号;
-使用所述数字化的语音信号来提供:
-只包括所述数字化的语音信号的第一部分的第一信号;和
-只包括所述数字化的语音信号的第二部分的第二信号,
其中所述数字化的语音信号的所述第一部分和所述第二部分至少部分不同;
-对所述第一信号进行处理以至少减少可能在所述第一信号中出现的部分噪音,从而提供第一降噪信号;
-对所述第二信号进行处理,包括:
对所述第二信号进行处理以至少减少可能在所述第二信号中出现的部分噪音,并进一步将所述第二信号作为所述第一降噪信号的函数而进行处理,从而提供第二降噪信号;
-使用所述第一降噪信号来生成第一组频谱信息;
-使用所述第二降噪信号来生成第二组频谱信息;
-根据所述第一和第二组频谱信息来生成语音识别参数,其中所述语音识别参数对应于所述数字化语音信号。
2.如权利要求1中的所述方法,其中对所述第一信号进行处理以至少减少部分噪音的步骤包括使用谱估计。
3.如权利要求2中的所述方法,其中生成语音识别参数的步骤包括生成对应于由所述第一和第二组频谱信息表示的所述数字化语音信号的倒谱系数。
4.一种生成语音识别参数的方法,包括:
-提供数字化语音信号;
-对所述数字化语音信号进行低通滤波以提供第一数字化语音信号;
-对所述数字化语音信号进行高通滤波以提供第二数字化语音信号;
-使用第一处理过程来处理所述第一数字化语音信号,从而:
-提供相应的谱估计;
-至少减少可能在所述第一信号中出现的部分噪音,从而提供降噪的第一数字化语音信号;和
-提供与所述数字化语音信号相对应的低频信息;
-根据所述第二数字化语音信号提供经过处理的信号,其包括:
-使用快速傅立叶变换来获得谱估计;
-使用Mel滤波器组来测定关于所述谱估计的特定能量;
-将所述经过处理的信号作为所述相应的谱估计的函数而进行处理,从而提供编码的表示;
-将所述编码的表示作为所述降噪的第一数字化语音信号的函数而进行处理,从而提供解码的表示;
-对所述经过处理的信号进行处理,该处理包括从所述经过处理的信号进行频谱减法,以产生基于所述第二数字化语音信号的生成信号,并进一步将所述生成信号作为所述解码表示的函数而进行处理,从而至少降低可能在所述生成信号中出现的部分噪音,并提供生成的对应于所述数字化语音信号的高频信息;
-将所述生成的高频信息与对应于所述数字化语音信号的低频信息进行合并,从而为所述数字化语音信号提供合并的频谱信息;
-根据所述合并的频谱信息来生成语音识别参数,其中所述语音识别参数对应于所述数字化语音信号。
5.如权利要求4中的所述方法,其中所述低通滤波的步骤和所述高通滤波的步骤中至少有一个步骤包括对正交镜像滤波器的使用。
6.如权利要求4中的所述方法,其中将所述经过处理的信号作为所述相应的谱估计的函数而进行处理,从而提供编码的表示的步骤包括:
-使用快速傅立叶变换来获得对应于所述第一数字化语音信号的谱估计;
-使用Mel滤波器组来测定关于对应于所述第一数字化语音信号的所述谱估计的特定能量;
-将对应于所述第二数字化语音信号的所述谱估计的特定能量作为对应于所述第一数字化语音信号的所述特定能量的函数进行处理,从而提供所述编码的表示。
7.如权利要求6中的所述方法,其中将所述编码的表示作为所述降噪的第一数字化语音信号的函数而进行处理,从而提供解码的表示的步骤包括:
-使用快速傅立叶变换来获得对应于所述降噪的第一数字化语音信号的谱估计;
-使用Mel滤波器组来测定关于对应于所述降噪的第一数字化语音信号的所述谱估计的特定能量;
-将所述解码的表示作为对应于所述降噪的第一数字化语音信号的所述特定能量的函数进行处理,从而提供噪音的解码的表示。
8.如权利要求4中的所述方法,还包括通过计算能量参数的对数而生成与整个频段的至少大部分频段对应的信号能量的参数,所述整个频段包括所述数字化语音信号。
9.如权利要求8中的所述方法,其中计算能量参数的对数的步骤包括使用源于所述第一和第二数字化语音信号的低频和高频信息来计算能量参数的对数。
CNB028077741A 2002-01-30 2002-12-18 用于构成语音识别参数的方法 Expired - Lifetime CN1308910C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/061,048 2002-01-30
US10/061,048 US6678656B2 (en) 2002-01-30 2002-01-30 Noise reduced speech recognition parameters

Publications (2)

Publication Number Publication Date
CN1500260A CN1500260A (zh) 2004-05-26
CN1308910C true CN1308910C (zh) 2007-04-04

Family

ID=27610131

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028077741A Expired - Lifetime CN1308910C (zh) 2002-01-30 2002-12-18 用于构成语音识别参数的方法

Country Status (5)

Country Link
US (1) US6678656B2 (zh)
CN (1) CN1308910C (zh)
BR (1) BRPI0208584B1 (zh)
GB (1) GB2390466B (zh)
WO (1) WO2003065351A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG97885A1 (en) * 2000-05-05 2003-08-20 Univ Nanyang Noise canceler system with adaptive cross-talk filters
KR100366057B1 (ko) * 2000-06-26 2002-12-27 한국과학기술원 인간 청각 모델을 이용한 효율적인 음성인식 장치
JP2003216183A (ja) * 2002-01-25 2003-07-30 Sony Corp 情報検索方法及び装置
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
JP4497911B2 (ja) * 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
US8112247B2 (en) * 2006-03-24 2012-02-07 International Business Machines Corporation Resource adaptive spectrum estimation of streaming data
CN101303854B (zh) * 2007-05-10 2011-11-16 摩托罗拉移动公司 用于提供识别的语音输出的方法
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法
CN103390403B (zh) * 2013-06-19 2015-11-25 北京百度网讯科技有限公司 Mfcc特征的提取方法及装置
CN106885971B (zh) * 2017-03-06 2020-07-03 西安电子科技大学 一种用于电缆故障检测定点仪的智能背景降噪方法
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system
KR20220114365A (ko) * 2021-02-08 2022-08-17 라인플러스 주식회사 풀 밴드 신호의 노이즈 제거 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5642383A (en) * 1992-07-29 1997-06-24 Sony Corporation Audio data coding method and audio data coding apparatus
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
CN1299127A (zh) * 1999-11-24 2001-06-13 松下电器产业株式会社 用于自动语音识别的优化的局部特征提取

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US5642383A (en) * 1992-07-29 1997-06-24 Sony Corporation Audio data coding method and audio data coding apparatus
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
CN1299127A (zh) * 1999-11-24 2001-06-13 松下电器产业株式会社 用于自动语音识别的优化的局部特征提取

Also Published As

Publication number Publication date
GB2390466A (en) 2004-01-07
WO2003065351A1 (en) 2003-08-07
GB0323166D0 (en) 2003-11-05
BRPI0208584B1 (pt) 2017-01-24
CN1500260A (zh) 2004-05-26
US20030144834A1 (en) 2003-07-31
US6678656B2 (en) 2004-01-13
GB2390466B (en) 2005-07-20
BR0208584A (pt) 2004-12-28

Similar Documents

Publication Publication Date Title
CN100510672C (zh) 在存在背景噪声时用于语音增强的方法和设备
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
Gu et al. Perceptual harmonic cepstral coefficients for speech recognition in noisy environment
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
CN1308910C (zh) 用于构成语音识别参数的方法
US20040128130A1 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
KR101059640B1 (ko) 분산 음성 인식 시스템내에서 음성 복원을 위한 방법 및장치
CN102982801A (zh) 一种用于鲁棒语音识别的语音特征提取方法
CN1276897A (zh) 基于波形的周期性检测器
Fujimoto et al. Noisy speech recognition using noise reduction method based on Kalman filter
Vlaj et al. A computationally efficient mel-filter bank VAD algorithm for distributed speech recognition systems
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
Azirani et al. Speech enhancement using a Wiener filtering under signal presence uncertainty
CN112927700B (zh) 一种盲音频水印嵌入和提取方法及系统
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
Deisher et al. Speech enhancement using state-based estimation and sinusoidal modeling
Zhang et al. Speech Perceptual Hashing Authentication Algorithm Based on Spectral Subtraction and Energy to Entropy Ratio.
CN112270934A (zh) 一种nvoc低速窄带声码器的语音数据处理方法
Kim et al. Speech enhancement of noisy speech using log-spectral amplitude estimator and harmonic tunneling
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法
Zhu et al. Speech endpoint detection method based on logarithmic energy entropy product of adaptive sub-bands in low signal-to-noise ratio environments
Vini Voice Activity Detection Techniques-A Review
Górriz et al. Voice activity detection using higher order statistics
Chen et al. Extraction of pitch information in noisy speech using wavelet transform with aliasing compensation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110107

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110107

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois, USA

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160516

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term

Granted publication date: 20070404

CX01 Expiry of patent term