CN1545368A - 声音处理装置和方法 - Google Patents
声音处理装置和方法 Download PDFInfo
- Publication number
- CN1545368A CN1545368A CNA2004100476438A CN200410047643A CN1545368A CN 1545368 A CN1545368 A CN 1545368A CN A2004100476438 A CNA2004100476438 A CN A2004100476438A CN 200410047643 A CN200410047643 A CN 200410047643A CN 1545368 A CN1545368 A CN 1545368A
- Authority
- CN
- China
- Prior art keywords
- sound
- cepstrum
- frequency spectrum
- frame
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims description 28
- 238000000034 method Methods 0.000 title description 82
- 238000001228 spectrum Methods 0.000 claims description 107
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims 1
- 230000004044 response Effects 0.000 abstract description 34
- 238000001514 detection method Methods 0.000 description 26
- 238000012935 Averaging Methods 0.000 description 14
- 230000002123 temporal effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 230000008030 elimination Effects 0.000 description 10
- 238000003379 elimination reaction Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005311 autocorrelation function Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000004321 preservation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 241000220010 Rhode Species 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Exchange Systems With Centralized Control (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
一种声音处理装置,在使用模拟音响回波信号进行回波消除时,作为为了发生模拟音响回波信号而使用的脉冲响应,在麦克风输入信号中包含语音时就连续地使用在前一时刻的帧中使用的脉冲响应,而在麦克风输入信号中不包含语音时就使用新更新的脉冲响应。
Description
本申请是申请号为98803137.X,申请日是1998年3月5日,发明名称为“声音处理装置和方法”的申请的分案申请。
技术领域
本发明涉及可以应用于通过消除从遥控(remote)扬声器向遥控麦克风的音响回波来提高通话品质的免提型的通话系统(电视会议系统、汽车电话)和通过消除从遥控扬声器向遥控麦克风的绕射声音来提高声音识别性能的免提型的声音识别装置(汽车音响系统、汽车驾驶导航系统、PC等)的声音处理装置和方法。
背景技术
从遥控扬声器向遥控麦克风绕射的音响信号常常称为音响回波。消除音响回波的技术(音响回波消除器)的用途有以下2个。
(1)在免提型的通话系统(电视会议系统、汽车电话)中,提高向进行通话的对方传送的声音的音质。
有时从遥控扬声器输出的对方的声音在房间的墙壁和窗玻璃上反射,受该房间固有的音响特性的影响而向遥控麦克风绕射。这时,对于对方而言,由于自己的声音伴有某一时间延迟而作为音响回波返回来,所以,将会出现既难听又难讲的情况。因此,希望在遥控麦克风收集的声音中,通过消除从扬声器绕射回的音响回波而将其余的声音向进行通话的对方发送出去,改善上述不佳的情况。
(2)在免提型的声音识别装置中提高声音识别率。
例如,在汽车内,也有汽车音响系统或汽车驾驶导航系统的扬声器的输出声音和上述音响回波一样在隔板及窗玻璃上反射而绕射回声音识别用麦克风,作为非稳定的加法性噪音起作用从而降低声音识别率的不良情况。因此,希望在声音识别用麦克风收集的声音中通过消除从扬声器绕射回的声音,进行其余的声音的识别而实现更高的声音识别性能。
在上述2个用途中,都是遥控扬声器的输出音响的直接声音和在房间的墙壁、隔板或窗玻璃等上反射的反射声音时常地向遥控麦克风绕射。这里,将从遥控扬声器向遥控麦克风的直接声音和反射声音通称为音响回波。另外,将从遥控扬声器输出声音生成音响回波的路径称为音响回波生成路径。
通常,音响回波生成路径的特性可以用FIR(Finite ImpulseResponse)滤波器进行模型化,但是,应该考虑是随房间内的状况(人的动作、人数等因素)及汽车内的状况(人的动作、人数、车窗的开闭等因素)而变化的。在几乎不引起音响回波生成路径的特性的变化时,一般认为采用预先求出最佳的滤波系数,将滤波系数固定,消除音响回波的方法即可。但是,音响回波生成路径的特性的变化何时发生,一般是难于预测的。这时,就希望采用利用自适应滤波器动态地推算最佳的滤波系数而自适应地消除音响回波的方法。
所谓自适应滤波器,就是指假定观测信号是对声源已知的信号具有某种脉冲响应的滤波器进行卷积而生成的并且为了使观测信号与(根据声源已知信号与滤波系数的估算值的卷积而计算的)模拟信号之差为0而使滤波器的系数动态地自适应的近似法。通过将由近似音响回波生成路径的FIR滤波器的系数与扬声器的输出信号的卷积而得到的信号从观测信号中减去,便可消除音响回波。作为自适应滤波器的算法,迄今已提案了LMS(Least Mean Square error)[S.Haykin,“Adaptive Filter Theory,”2nd ed.Englewood Cliffs,NJ,Prentice-Hall,1991]、NLMS(Normalized Least Mean Square error)[S.Haykin,“Adaptive Filter Theory,”2nd ed.Englewood Cliffs,NJ,Prentice-Hall,1991]、APA(Affine Projection Algorithm)[尾关和彦,南云仁一,“ァフィン部分空间ヘの直交射影を用ぃた适应フィルタ—·ァルゴリズムとその诸性质,”日本电子情报通信学会论文志,Vol,J67-A,No.2,pp.126-132,1984.]、RLS(Recursive Least Squares)[S.Haykin,“Adaptive Filter Theory,”2nd ed.Englewood Cliffs,NJ,Prentice-Hall,1991]等。特别是,NLMS的运算量少、收敛速度与已知的声源信号的大小无关,所以,被广泛地采用。但是,人们指出,对于声音这样的有色信号的滤波系数的收敛速度比APA及RLS慢。
在时刻t的FIR滤波器的系数和向FIR滤波器的输入数据(已知的声源信号)分别可以表为
h(t)=[h1(t),h2(t),...,hM(t)]T (1)
x(t)=[x(t),x(t-1),...,x(t-M+1)]T (2)
其中,T表示转置。M是FIR滤波器的次数。另外,在时刻t的麦克风输入信号为y(t),则NLMS通常由以下公式给出。即
r(t)=h(t)Tx(t) (3)
e(t)=y(t)-r(t) (4)
其中,‖·‖2表示矢量的能量。μ是决定滤波系数的更新速度的常数(称为步长增益),为了使滤波系数收敛,必须满足0<μ<2。a是‖x(t)‖2为微小值时防止(5)式的右边第2项发散的正常数。用电路表示上述公式的NLMS的框图示于图1。其中,将r(t)称为模拟音响回波信号,将e(t)称为音响回波消除信号。图2表示将使用以NLMS为主的自适应滤波器的音响回波消除器(AEC)设置在室内的例子。为了便于说明,将从扬声器2输出的信号向AEC1的输入称为远端输入,将麦克风3的输入称为近端输入,将扬声器2的输出称为近端输出,将音响回波消除后的AEC1的输出信号称为远端输出。另外,假定远端输入与近端输出是完全等价的,并假定由远端输入生成近端输出的系统的特性(扬声器特性等)包含在音响回波生成路径的特性中。
关于这样的音响回波消除器,人们特别对以下的课题进行了认真的研究。
(1)步长增益的控制
必须尽可能增大步长增益并提高收敛速度,但是,如果太大,将成为颤噪的原因,所以,必须设定适宜的使用环境。作为典型的步长增益的控制方法,已提案了ES(Exponentially Step)法[S.Makino,Y.Kaneda and N.Koizumi,“Exponentially Weighted Stepsize NLMSAdaptive Filter Based on the Statistics of a Room Impulse Response”IEEE Trans.SAP,Vol.1,No.1,pp.101-108,1993.]。室内的自适应滤波系数更新时的变化量具有指数衰减特性,所以,按指数式设定步长增益(在变化量大的脉冲响应前半部大,在后半部小)。减小残留回波电平所需要的时间用通常的NLMS的大约一半就够了。
(2)双方说话(double talk)检测
通常,在双方说话(远端通话者和近端通话者双方同时发出声音的状态)中,由AEC(NLMS)1继续进行自适应滤波系数的更新时,滤波器的系数将发生大的紊乱,结果将减少回波消除量,从而容易引起颤噪。因此,如何迅速地检测双方说话,控制AEC1的自适应滤波器的更新动作,就是重要的关键。对于双方说话的检测,使用残留回波的功率的方法被认为是有效的[藤井健作,大贺寿郎,“ェコ—经路变动检出を并用するダブルト—ク检出法,”日本电子情报通信学会论文志,Vol.J78-A,No.3,pp.314-322,1995.]。可以检测埋没在音响回波中的小的近端通话者的声音。
(3)检测音响回波路径变动
伴随近端通话者移动时等发生音响回波路径变动时,将发生残留回波增大、并判定为双方说话从而停止自适应滤波器的系数更新的不良情况。因此,必须将双方说话与音响回波路径变动加以区别,在音响回波路径变动时继续进行自适应滤波器的系数更新。作为其方法,已提案了利用近端输入与模拟回波的相关关系的方法[藤井健作,大贺寿郎,“ェコ—经路变动检出を并用するダブルト—ク检出法,”日本电子情报通信学会论文志,Vol.J78-A,No.3,pp.314-322,1995.]等。
以提高在汽车音响系统及导航系统的音响·声音信号从扬声器输出的汽车环境内的强健的声音识别功能为目的在汽车室内设置NLMS的AEC1用以消除声源已知的加法性噪音的例子示于图3。图3所示的与图2相同部分的符号,采用和图2所示相同的符号。
尝试了旨在实现可以在从扬声器2输出引导声音时识别发出的声音的功能即所谓的Barge-In(Talk-Through)功能而利用AEC1的方法。这里,将在起因于扬声器2的输出的声音的误识别中,根据自适应滤波器的效果而成为正确识别的回复率称为RRE(RecoveryRate of Error)。
例如,在设置在会议室内的声音对话系统中,通过利用AEC1抑制从扬声器2向麦克风3的引导声音的绕射,可以获得70~80%的RRE[高桥敏,差峨山茂树,“NOVO合成法を用ぃたBarge-In音声の认识,”日本音响学会研究发表会讲演论文集,2-5-1,pp.59-60,1996-3.]。
但是,关于存在声源未知的加法性噪音而该噪音电平总在变动的汽车室内的音响回波消除器的研究成果尚未见到报告。在汽车电话的免提型装置中,存在同时使用声音开关(采用近端输入与远端输入的能量比较的交互通话方式)和音响回波消除器的装置,但是,有人指出,话头和话尾常常会被切断,通话品质不太好。
通常,在由近端输出生成的声音以外的声音混入到近端输入中(以下,称为存在近端输入)的状况下继续进行系数的自适应话处理时,滤波系数的估算精度将降低,从而音响回波的消除性能将降低。因此,在存在远端输入并且存在近端输入的状态下(称为双方说话状态),通常将使根据(5)式的滤波系数的更新停止。是否存在远端输入的判断,可以根据远端输入的能量与预先决定的阈值的单纯的比较而进行。
另一方面,若同样进行是否存在近端输入的判断时,多数情况是由于音响回波的影响而判断为存在近端输入,这样将频繁地停止根据(5)式的滤波系数的更新,结果将发生滤波系数的估算精度降低的不良情况。因此,可以考虑不是使用近端输入信号y(t)而是使用音响回波消除信号e(t)的能量来判断是否存在近端输入的方法。作为在近端输入生成的声音以外混入近端输入的声音,大致可以分为行驶噪音等声源未知的加法性噪音和人的声音2种,不论哪一种噪音都不能用自适应滤波器消除而残存在远端输出中。
通常,在行驶中的汽车环境中,声源未知的加法性噪音的能量电平在60~80dBA之间发生大的变动[金指久则,则松武志,新居康彦,“车载用单语音声认识装置,”日本音响学会研究发表会讲演论文集,1-Q-32,pp.159-160,1995-3.][铃木邦一,中村一雄,宇尾野丰,浅田博重,“车载骚音环境下にぉけゐ连续音声认识,”日本音响学会研究发表会讲演论文集,2-Q-4,pp.155-156,1993-10.],因而难于唯一地决定用于判断存在近端输入的最佳的阈值。
另外,由于声源未知的加法性噪音的影响,近端输入与模拟音响回波信号的相关系数将降低,所以,可以预想到上述音响回波路径变动检测法[藤井健作,大贺寿郎,“ェコ—经路变动检出を并用するダブルト—ク检出法,”日本电子情报通信学会论文志,Vol.J78-A,No.3,pp.314-322,1995.]的应用也有困难的情况。如果有具有正确地识别声源未知的加法性噪音与人的声音的声音检测算法,可以认为就是有力的解决方法。
首先,评价在只存在行驶噪音时的NLMS的音响回波的消除性能。图4A、图4B、图4C、图4D、图4E分别表示远端输入信号(通俗音乐)的频谱、空载时的近端输入信号的频谱、该近端输入信号的音响回波消除信号的频谱、时速100km行驶时的近端输入信号的频谱和该近端输入信号的音响回波消除信号的频谱。
汽车音响系统的音量设定为在空载时和时速100km行驶时1名男性感到舒适的电平。因此,在以时速100km行驶时,扬声器输出电平大,从而音响回波电平也大。近端输入信号,由将单一指向性麦克风设置在2000cc的汽车的驾驶员座位的遮光板上而接受。滤波系数的初始值全部取为0.0,从时刻0秒开始连续根据(3)-(5)式更新滤波系数,求出音响回波消除信号。采样频率为8kHz,音响回波的最大延迟考虑到32ms。因此,FIR滤波器的抽头数为256。
另外,作为评价自适应滤波器的性能的尺度,经常使用ERLE(Echo Return Loss Enhancement)。ERLE表示近端输入信号的衰减量,由下式定义[北胁信彦编著,“音のコミュニケ—ツョン工学—マルチメディァ时代の音声·音响技术—,”コロナ社,1996.]。
E[·]表示推算值,根据下式求出。
E[z(t)2]=(1-λ)·E[z(t-1)2]+λ·z(t)2 (7)
其中,λ=1/256。ERLE的单位为dB。空载时的ERLE的最大值、平均值分别为18.80dB、10.13dB。另外,以时速100km行驶时的ERLE的最大值、平均值分别为9.33dB、5.59dB。必须注意,近端输入的声源未知的加法性噪音的电平越大,由(式)6给出的ERLE的值就越低。
从图4C、图4E可知,不论是空载时还是以时速100km行驶时,都基本上可以消除音响回波。在近端输入中不含有人的声音时,通过连续更新滤波系数,认为可消除大部分音响回波。即,可以认为,在声源未知的加法性噪音中定常的并且与声音无关的行驶噪音对滤波系数的推算的影响很小。
其次,研究在近端输入中含有人的声音的情况。在2000cc的汽车中,从汽车音响系统播放通俗音乐,并在市内街道上以时速60km行驶,收录加法性噪音数据。这时,音乐的音量设定为1名女性感到舒适的电平。然后,将在停止中(发动机停止)的同一汽车内同一1名女性发出的声音数据(「明快的」)以同一录音电平进行收录。
并且,在计算机上将加法性噪音数据与声音数据相加后的信号的频谱示于图7A。图7B表示取滤波系数的初始值为0.0并从时刻0秒开始连续地更新滤波系数时的音响回波消除信号的频谱。另外,图7C表示滤波系数的第10个系数的值的变化。这时的ERLE的最大值、平均值分别为8.48dB、4.18dB。
由图可知,特别是从时刻0.5秒附近开始在0.15秒的期间中滤波系数值激烈地振荡,呈现不稳定的状态。另外,不能消除时刻1.0秒以后的音响回波(在图7B中用椭圆包围的部分)。在近端输入中存在语音的期间,停止滤波系数的更新,在近端输入中不存在语音的期间,不论定常的加法性噪音的存在如何,都必须连续进行滤波系数的更新。因此,需要正确地判断在混入了声源未知的加法性噪音的近端输入中是否含有语音的声音检测算法。
在声音识别系统中,正确地检测声音区间是非常重要的。在几乎没有背景噪音的环境中,正确的语音检测并不是太难的。但是,在像行驶中的汽车室内那样不能忽视背景噪音的存在的环境中,语音的检测是相当困难的。特别是位于语音的最初位置的弱摩擦音、弱鼻音及位于语音的最初或最后位置的无声化的母音等多数情况被埋没到背景噪音中,难于检测。呼吸音、咂嘴音等本来是作为非语音应检测的,但是常常作为语音而被检测到,从而多导致误识别。
通常的方法是,根据某一阈值以上的短时间功率是否连续并继续一定帧以上来检测语音的开始点,根据某一阈值以下的短时间功率是否连续并继续一定帧以上来检测语音的结束点。另外,也有根据2个电平的阈值尝试更正确地检测声音或使用声音信号的0交叉次数的做法[古井贞熙,“ディジタル音声处理,”ディジタルテクノロジ—シリ—ズ,东海大学出版会,1985.]。在可以忽视声源未知的加法性噪音的存在的环境中,即使是仅使用短时间功率或0交叉次数等的时间信息的声音检测法也不会发生问题。
但是,在不能忽视声源未知的加法性噪音的存在的环境中,在使用先有的声音检测法时的音响回波消除器中,将会发生以下不良情况。首先,第一尽管在麦克风输入中不存在语音,却将声源未知的加法性噪音判定为语音,不再进行滤波系数的更新,从而不能跟随音响特性的变化,音响回波的消除性能降低。第二,尽管在麦克风输入中存在语音,也判定没有语音,从而进行滤波系数的更新,偏离所希望的值,音响回波的消除性能降低。因此,希望不仅使用时间信息,而且同时使用频谱等频率信息。
在日本特愿平5-213946号(特开平7-66757)(NTT)中,说明了使用根据输入声音信号(回波消除前的信号)和声源已知的加法性噪音的声源信息的时间信息以及频率信息判断在输入声音信号中是否包含语音的双方说话检测电路的音响回波消除器。但是,作为绕射到输入声音信号中的回波,是以只受声源信号的影响为前提的,在有周围的噪音时,就会有双方说话检测精度降低的不良情况。另外,也不具有保持根据自适应滤波器推算的脉冲响应(FIR滤波器的系数值)的缓冲器。
在日本特开平5-102887号(东芝)中,使用根据回波消除后的信号的大小来判断是否为双方说话的双方说话检测电路,但是,由于不是同时并用时间信息和频率信息进行的判断,所以,在存在周围的噪音的环境中就会有判断精度不精确的问题。
在日本特开平7-303066号(NTT DOCOMO)中,采用了用脉冲响应寄存器补偿判断单元的延迟的结构,但是,由于不具备使用回波消除后的信号的时间信息和频率信息对各帧判断在输入声音信号中是否包含语音的单元,所以,双方说话检测性能是有限的。
在WO 96/42142号(NOKIA)中,具有使用回波消除后的信号的时间信息和频率信息对各帧判断在输入声音信号中是否包含语音的单元,但是,是关于通过减小汽车电话的基站发送信号的增益而具有抑制直接输出音响回波的结构的音响回波抑制器的发明,而不是关于音响回波消除器的发明。
发明的公开
本发明的目的旨在提供在容易混杂音响等的噪音的环境下可以改善声音信号的噪音消除性能的声音处理装置和方法。
本发明的特征在于,具有
根据模拟音响回波的传输路径的现时刻的脉冲响应和声源信号生成模拟音响回波信号的生成单元;
保持现时刻的脉冲响应并供给上述生成单元的供给单元;
通过将该模拟音响回波信号从麦克风输入信号中减去而消除音响回波并生成音响回波消除信号的消除单元;
使用上述声源信号和上述音响回波消除信号以及上述供给单元保持的现时刻的脉冲响应连续更新脉冲响应并将更新的脉冲响应供给上述供给单元的更新单元;
利用上述音响回波消除信号的时间信息和频率信息对各帧判断在麦克风输入信号中是否包含语音的判断单元;
保存1个以上的脉冲响应的保存单元;
和控制单元,在上述判断单元的判断结果为否定的帧中将上述供给单元保持的现时刻的脉冲响应保存到上述保存单元中而在判断结果为肯定的帧中就取出上述保存单元保存的1个脉冲响应并供给上述供给单元。
在本发明中,也可以将上述音响回波消除后的信号用于声音识别。
在本发明中,进而还可以具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元;根据该得到的频谱对各帧连续地求频谱平均值的单元;和通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的单元。
在本发明中,进而还可以具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元;根据该得到的频谱对各帧连续地求频谱平均值的单元;通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的单元;根据消除了该加法性噪音的频谱求对数倒频谱的单元;对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元;和对各通话者将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去以及将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。
在本发明中,进而还可以具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元;根据该得到的频谱求对数倒频谱的单元;对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元;和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。
在本发明中,还可以具有通过富里叶变换对各帧求频谱的单元;根据该得到的频谱求对数倒频谱的单元;对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元;和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。
在本发明中,使用模拟音响回波信号进行回波消除时,作为为发生模拟音响回波信号而使用的脉冲响应,在麦克风输入信号为语音时连续地使用在前一时刻的帧中使用的脉冲响应,在麦克风输入信号不是语音时通过使用新的更新后的脉冲响应来改善音响回波消除的性能。
此外,本发明根据消除音响回波后的信号求各帧的频谱和频谱平均值,使用得到的频谱和频谱平均值消除加法性噪音。
附图的简单说明
图1是表示NLMS(Normalized Least Mean Square error)的功能结构的框图。
图2是表示音响回波消除器的设置例的图。
图3是表示消除汽车室内的声源已知的加法性噪音的例子的图。
图4A-图4E分别是表示NLMS(Normalized Least Mean Squareerror)的性能(横轴:秒)的图。
图5是表示VAD(Voice Activity Detection)的处理内容的框图。
图6是表示VAD的动作定时的图。
图7A-图7G分别是表示NLMS-VAD(Normalized Least MeanSquare error with frame-wise Voice Activity Detection)的效果(横轴:秒)的图。
图8是用于说明滤波系数缓冲器的动作的图。
图9是表示NLMS-VAD的结构的框图。
图10A和图10B分别是表示NLMS-VAD/CSS法的频谱的图(横轴:秒)。
图11是表示时间不变滤波器的图。
图12是表示NLMS-VAD/CSS/E-CMN法的处理内容的框图(横轴:秒)。
图13是表示NLMS-VAD/CSS/E-CMN的评价的图。
图14是表示本发明实施例1的声音处理装置的结构的框图。
图15是表示本发明实施例2的系统的结构的框图。
图16是表示本发明实施例3的系统的结构的框图。
图17是表示本发明实施例4的系统的结构的框图。
图18是表示本发明实施例5的系统的结构的框图。
图19是表示本发明实施例6的系统的结构的框图。
实施发明的最佳的形式
作为利用短时间功率及音调等的时间信息和频谱等的频率信息的声音检测算法之一,有按欧洲的手机及汽车电话系统的GSM标准规格化的声音检测VAD(Voice Activity Detection)[RecommendationGSM06.32.]。该VAD精细地控制声音CODEC(压缩及解压)等的数字信号处理的动作,用于实现低功耗从而延长电池寿命。图5表示该VAD的简单的结构。首先,对各帧根据声音信号求自相关函数(时间信息)。根据该自相关函数通过线性预测分析LPC(LinearPredictive Coding)求线性预测系数(时间信息)。根据可以由线性预测系数构成的逆LPC滤波器和自相关函数可以求出声音信号的短时间功率(时间信息)。将该短时间功率与阈值比较,进行VAD判断。
在短时间功率大于阈值时,就输出数值1的局部的VAD标志。否则就输出数值0的局部的VAD标志。并且,在VAD后处理中,使用过去的多个帧的局部的VAD标志的数值的经历决定最终的VAD标志的值。
另一方面,在VAD判断中,在与短时间功率的比较中使用的阈值按以下方式作自适应化处理。利用经过平滑处理的自相关函数和自相关预测系数表示的频谱(频率信息)变化在连续的帧之间十分小时,就判定频谱的稳定性非常高。作为判定为频谱的稳定性非常高的声音信号,可以考虑背景噪音和母音。
在背景噪音的帧中进行阈值自适应处理,在母音的帧中不应进行阈值自适应处理。为了区别背景噪音和母音,利用音调信息。根据按照声音信号计算的自相关函数计算音调标志(音调周期)(时间信息)。在连续的帧之间,音调标志的变化小时,就判定该帧是母音,并输出数值1的音调标志。否则就输出数值0的音调标志。
利用从上述短时间功率和逆LPC滤波器求出的残差信号自相关预测系数、音调标志和稳定性的信息在频谱的稳定性高、音调性低的帧中进行阈值的自适应化处理。该VAD对于发动机声音及负载噪音等的比较稳定的背景噪音,不论其电平如何都可以发挥正确的声音检测性能。
在汽车内,从安全性的角度考虑将麦克风设置在遮光板等远离嘴边的位置时,信噪比(SNR)将变坏到小于10dB。这时,得知上述VAD算法的声音检测性能将显著地恶化。
因此,为了在SNR10dB左右时也能正确地进行声音检测,改良了阈值的自适应化等部分。现在,在VAD中使用的声音的窗口长为32ms,帧移动为10ms。以后,在由VAD检测到语音的存在时就说VAD是ON。相反,在未检测到时,就说VAD为OFF。该VAD进行1帧中1次近端输入中是否包含语音的判断,所以,可能发生声音的检测定时从实际的声音的前沿延迟的情况。
图6表示帧、VAD的动作定时和VAD使用的窗口长的关系。实际的声音的开始是帧n的中心时,能够由VAD检测该声音的开始的可能性高的是在帧n+1以后。假定帧n+2可以由VAD检测时,则从实际的声音的开始的检测延迟就成为25ms,可以认为在此期间回波通过的推算值是不稳定的。
图7D表示VAD的声音检测的情况。电平1表示检测到了语音。如使用箭头所示的那样,可以确认约2帧的声音检测延迟。如果可以将不稳定的滤波系数值恢复为更高精度的值,则可避免音响回波消除性能的降低。
因此,准备了可以存储m个滤波系数的缓冲器(称为滤波系数缓冲器)。在VAD为OFF的帧中,在将存储在第n(m-1≥n≥1)个存储位置的滤波系数顺序移动到第n+1个存储位置的同时,将现时刻的自适应滤波器的系数存储到滤波系数缓冲器的第1个存储位置。这时,作为结果,就是丢弃了存储在第m个存储位置的滤波系数。另一方面,在VAD为ON的帧中,取出存储在滤波系数缓冲器的第m个存储位置的滤波系数,可以用该值将变坏的滤波系数重置。
图8表示滤波系数缓冲器的动作的情况。取m为0~4时的ERLE的最大值和平均值示于表1。
表1滤波缓冲器的尺寸和ERLE(Echo Return Loss Enhancement)的关系
缓冲器尺寸m | 最大ERLE(dB) | 平均ERLE(dB) |
0 | 8.80 | 4.18 |
1 | 9.06 | 4.25 |
2 | 9.15 | 4.35 |
3 | 9.14 | 4.36 |
4 | 9.14 | 4.36 |
m=0表示不进行系数值的保存和重置的情况。由于在m≥2时几乎看不到与ERLE的差别,所以,选择m=2。这就与VAD的检测延迟(约2帧)对应。
将具有上述特征的算法称为NLMS-VAD(NLMS withframe-wise VAD),将全体的框图示于图9。这里,[s]、[f]分别表示采样方式和帧方式的信号的流程和处理的动作。在VAD一旦成为ON时,就停止滤波系数的更新直至下一个VAD成为OFF的帧。图7E表示令滤波系数的初始值全部为0.0、使VAD动作进行滤波系数值的存储和重置并从时刻0秒开始更新滤波系数时的滤波系数的第10个系数值的变化。示出了在停止滤波系数的更新的帧之前,滤波系数值不稳定,但是通过进行上述滤波系数的存储和重置而滤波系数恢复的情况。这样,便可消除时刻1.0秒以后的音响回波(在图7B中用椭圆包围的部分)。但是,由图7E可知,没有消除时刻0.1秒前后的音响回波(在图7E中用椭圆包围的部分)。如果预先保存对各发声推算的滤波系数和在VAD中使用的参量并在下次发声时将其作为初始值使用,则可提高滤波系数的推算速度。图7G表示该例子。由图可知,时刻0.0秒之后的音响回波残存了若干,但是,此后的音响回波(在图7E中用椭圆包围的部分)则几乎全部被消除。这时的ERLE的最大值和平均值分别为9.29dB和4.5dB。另外,本申请人已完成了与NLMS-VAD法关联的使用基于时间信息和频率信息的声音检测的音响回波消除器的在日本国的专利申请(特愿平09-051577号、1997年3月6日申请)。在本发明中,对各帧进行基于时间信息和频率信息的声音检测是与上述申请的发明不同的地方。
下面,对于在存在声源已知的加法性噪音和声源未知的加法性噪音的环境中的强健的声音识别方法,说明将NLMS-VAD法与CSS(Continuous Spectral Subtraction)法组合的方法。将在时刻t以频率ω的观测频谱、声音频谱S(ω;t)的推算值和加法性噪音的推算值分别表为O(ω;t)、S(ω;t)、N(ω;t)时,CSS法则给定为
其中,α是over-estimation factor(超过估计因子),β是flooring factor(基准因子),γ是smoothing factor(平滑因子),下面,根据预备实验的结果分别设定为2.4、0.1和0.974。CSS是不将语音帧与非语音帧加以区别而连续地求频谱的移动平均值,并将其视为噪音频谱的推算值而从输入频谱中减去的方法。由于声音频谱的影响包含在噪音频谱的推算值中,所以,存在能量弱的声音频谱被掩蔽从而产生畸变的问题,但是,对于过去的某一一定时间的区间,残留相对地具有大的能量的频率成分,从而具有不论噪音还是声音都将能量弱的频率成分掩蔽的作用。因此,对纯净的声音进行CSS处理后得到的特征参量与重叠了加法性噪音的声音进行CSS处理后得到的特征参量间的变化比通常的频谱减法及最小平均二乘误差推算法得到的小。该特长对低SNR的声音识别是有效的。图10A表示对停止中(空载)的汽车内女性发的声音(「明朗的」、与将图7A所示的声音在计算机上进行加法运算而作成时使用的声音相同)进行CSS处理后的频谱,图7B表示对同一声音将以时速60km行驶时的声源未知的加法性噪音与重叠了音响回波的噪音数据在计算机上进行加法运算后(图7A)用NLMS-VAD法消除音响回波(图7G)并进行CSS法处理而得到的频谱。若将图7G与图10B进行比较,可知时刻0.9秒附近的频率1kHz的音响回波的残存成分(图7G中用椭圆包围的部分)已通过CSS法消除了。
CSS法不仅具有消除稳定的加法性噪音的效果,而且也具有抑制不能由NLMS-VAD法消除的残存音响回波的效果。使用对将音响回波消除信号e(t)进行FFT处理而得到的频谱进行CSS法处理后的频谱通过逆FFT处理恢复到时间区域而得到的波形信号取代(6)式的e(t)时的ERLE的平均值为13.60dB。与此相反,不利用NLMS-VAD法进行音响回波消除而只利用CSS法进行加法性噪音消除同样求出的ERLE的平均值为9.87dB。可以看出,仅用CSS法时,不能消除约相当3.7dB的声源已知的加法性噪音。
将图10A与图10B进行比较可知,2个频谱非常类似。这就预示着利用NLMS-VAD法与CSS法的组合对声源已知的加法性噪音和声源未知的加法性噪音可以抽出强健的特征参量。
下面,说明对声音频谱的乘法性畸变的修正方法。将由某个人的发声器官发生的在时刻t的频率ω的短时间频谱S(ω;t)的语音帧的长时间平均值称为讲话者的个性Hperson(ω),定义为
其中,T是十分大的自然数。Hperson(ω)可以视为表示声带声源特性和与声道长有关的讲话者固有的频率特性。另外,将用讲话者的个性除短时间频谱所得的值
S*(ω;t)=S(ω;t)/Hperson) (11)定义为标准化声音频谱。这时,如图11所示,声音频谱可以解释为利用标准化声音频谱S*(ω;t)通过时间不变滤波器Hperson(ω)而生成或乘法性畸变Hperson(ω)与标准化声音频谱S*(ω;t)重叠而生成。
S(ω,t)=Hperson(ω)·S*(ω;t) (12)
在汽车室内这样的实际环境中,作为对于标准化声音频谱的乘法性畸变,除了上述讲话者的个性外,可以考虑以下3种[A.Acero,”Acoustical and Environmental Robustness in Automatic SpeechRecognition,”Kluwer Academic Publishers,1992.]。
(1)发话样式Hstyle(N)(ω)
是与加法性噪音N有关的讲话样式(讲话方式、讲话速度、讲话的大小、Lombar效果等)所固有的频率传输特性。所谓Lombar效果,是说在存在加法性噪音的环境下讲话时,与在静寂的环境下不同,在无意识中发声频谱变形的现象。在文献[Y.Chen,”Cepstral DomainTalker Stress Compensation for Robust Speech Recognition,”IEEETrans.ASSP,Vol.36,No.4,pp.433-439,1988.]中,在柔软的讲话方式时,具有1kHz以下的能量强、1kHz以上的能量弱的特性,另一方面,在大声、讲得快、喊叫声、Lombar效果时则具有相反的特性。
(2)空间传输特性Htrans(ω)
表示从口到麦克风的空间的频率传输特性。
(3)麦克风特性Hmic(ω)
表示麦克风等输入系统的电气频率传输特性。
通常,假定在声音和噪音的线性频谱区域的加法性成立时,则时刻t的频率ω的观测频谱O(ω;t)可以用O(ω;t)=HMic(ω)·[HTrans(ω)·{HScyle(N)(ω)·(Hperson(ω)·S*(ω;t))}+N(ω;t)+E(ω;t)]
(13)进行模型化处理[J.H.L.Hansen,B.D.Womack,and L.M.Arslan,”A Source Generator Based Production Model for EnvironmentalRobustness in Speech Recognition,”Proc.ICSLP94,Yokohama,Japan,pp.1003-1006,1994.]。其中,N(ω;t)表示声源未知的加法性噪音频谱,E(ω;t)表示声源已知的加法性噪音频谱。
在4种乘法性畸变内,HMic(ω)是可以预先测定的,但是,在实际环境中,认为不给声音识别系统的用户增加负担是难于将Hperson(ω)、HStyle(N)(ω)、HTrans(ω)分离开进行测定的。另外,例如即使假定不存在加法性噪音N(ω;t)和E(ω t),在作为观测频谱的长时间平均值和(10)一样求出的时间不变滤波器的增益中将不可避免地混入上述4种乘法性畸变。因此,若重新将乘法性畸变H*(ω)、加法性噪音N(ω;t)、E(ω)分别定义为
H*(ω)=HMic(ω)·HTrans(ω)·HHStyle(N)(ω)·Hperson(ω) (14)
则可将(13)式简化为以下形式。即
另一方面,若将(17)式变形,则可得到
如果不是使用观测的频谱而是使用根据(11)式进行了标准化处理后的频谱作成非特定讲话者音素模型,则对观测频谱O(ω;t)通过消除实际环境中的N(ω;t)、E(ω;t)、H*(ω),求出标准化声音频谱S*(ωt)的推算值,便可实现强健的声音识别系统。关于N(ω;t)和E(ωt)的消除,前面讲过,将NLMS-VAD法与CSS法组合的方法是有效的。
在声音识别系统中,作为音响参量,通常使用对数倒频谱来取代频谱。对数倒频谱定义为对频谱的对数值进行逆离散余弦变换(DCT:Discrete Cosine Transform)所得的数值。对数倒频谱与频谱相比,多用于用很少的参量数获得同样的声音识别性能之目的。
关于对标准化声音频谱S*(ωt)的乘法性畸变H*(ω)的消除,现已证明以下的E-CMN(Exact Cepstrum Mean Normalization)是有效的[M.Shozakai,S.Nakamura and K.Shikano,”A Non-IterativeModel-Adaptive E-CMN/PMC Approach for Speech Recognition in CarEnvironments,”Proc.Eurospeech,Rhodes,Greece,pp.287-290,1997.]。E-CMN法由以下2个步骤构成。推算步骤:对各讲话者分别求出语音/非语音帧的对数倒频谱平均值。将帧t的次数i的对数倒频谱表为C(i,t)时,则帧t的语音帧的对数倒频谱平均值Cspeech(i,t)可以利用例如(19)式求出。即
其中,η是求语音帧的对数倒频谱平均值时的平滑化系数,可以设定为小于1.0但接近1.0的值。另外,帧t的非语音帧的对数倒频谱平均值Cnonspeech(i,t)可以利用例如(20)式求出。其中,η是求非语音帧的对数倒频谱平均值时的平滑化系数,可以设定为小于1.0但接近1.0的值。
语音帧的对数倒频谱平均值是乘法性畸变H*(ω)的对数倒频谱表现,与讲话者有关。另一方面,非语音帧的对数倒频谱平均值与麦克风特性等输入系统的乘法性畸变Hmic(ω)有关。
标准化步骤:对各讲话者按照(21)式在语音帧中将语音帧的对数倒频谱平均值Cspeech(i,t)从观测对数倒频谱C(i,t)减去,在非语音帧中将非语音帧的对数倒频谱平均值Cnonspeech(i,t)减去,通过求标准化对数倒频谱C(i,t)而将观测频谱标准化。
关于E-CMN法的发明,本申请人已在日本国完成了申请(特愿平09-051578号、1997年3月11日)。
E-CMN法是根据约10个单词的少量的声音将各种乘法性畸变之积作为声音区间的对数倒频谱平均值而进行推算本将其从输入对数倒频谱中减去的方法。显而易见,不是通过使用根据所观测的频谱求出的对数倒频谱而是通过使用根据E-CMN法进行标准化处理后的对数倒频谱作成非特定讲话者音素模型,便可将各种乘法性畸变一起修正。
最后,作为在存在声源已知和声源未知的加法性噪音及乘法性畸变的实际环境中的强健的声音识别方法,说明将NLMS-VAD法、CSS法和E-CMN法组合的方法。图12表示按照本组合方法构成的运算电路的框图。首先,在第1电路101中,利用NLMS-VAD法生成从输入声音中消除了声源已知的加法性噪音E(ω;t)的波形信号。其次,在第2电路102中,在对该波形信号进行富里叶变换后,利用CSS法生成消除了声源未知的加法性噪音N(ω;t)的频谱的时间序列。
此外,在第3电路103中,将该频谱的时间序列变换为对数倒频谱的时间序列,然后利用E-CMN法变换为进行标准化处理后的对数倒频谱的时间序列。最后,在第4电路104中,将对数倒频谱的时间序列利用众所周知的维托毕算法与预先作成的非特定讲话者用的音素模型进行对照,输出声音识别结果。
这时使用的非特定讲话者用音素模型,如前所述,必须使用利用E-CMN法进行标准化处理后的对数倒频谱来作成。此外,在E-CMN法中所需要的语音帧与非语音帧的区别,可以直接使用组装到NLMS-VAD法的VAD的结果。
下面,归纳本组合方法的效果。将单一指向性麦克风设置到2000cc的汽车的驾驶员座位的遮光板上,收录男性2名、女性2名坐到设定在各自喜欢的位置上的座位上讲出520个单词(ATR声音数据库C集合)的声音(数据1)。通过手动进行分割以使各250ms的无音区间附属在声音区间的前后。另外,在空载、以时速60km、时速100km的行驶状态下,用汽车音响系统顺序播放5种音乐源(通俗音乐、爵士音乐、摇滚音乐、古典音乐、单口相声),并将混合了音乐源的左右信道的信号(数据2)和麦克风输入信号(数据3)同时录音。汽车音响系统的输出值对各行驶状态设定为1名男性感到舒适的音量。
在空载、时速60km、时速100km的状态下音响回波向麦克风的最大输入电平分别为60.7dBA、65.9dBA、70.6dBA。将数据1和数据3在计算机上进行加法运算后,作成评价数据。数据2作为NLMS-VAD法的远端输入使用。在识别中,使用环境独立的54音素的非特定讲话者用Tied-Mixture HMM模型(根据40名的语音数据作成)。分析条件是8kHz采样、帧长32ms、帧移动10ms,特征参量为10次MFCC、10次ΔMFCC、Δ能量,HMM模型所共有的正态分布的数分别为256、256、64。
非特定讲话者按520个单词的识别任务在空载、时速60km、时速100km的行驶状态下不存在扬声器输出声音时(w/o Speaker Out)、存在扬声器输出声音但不进行NLMS-VAD法处理时(w/SpeakerOut w/o NLMS-VAD)和存在扬声器输出声音并进行NLMS-VAD法处理时(w/Speaker Out w/NLMS-VAD)的识别性能(5种音乐源的平均)和RRE示于图13。
不论在哪种行驶状态下,都可以得到80%以上的RRE。另外,用NLMS-VAD法也不能恢复的误识别率在空载、时速60km、时速100km的状态下也分别仅为0.7%、2.1%、1.8%,从而可以确认上述组合法的有效性。
(实施例1)
实施例1的声音处理装置的电路结构示于图14。以下所述的各个单元,可以使用众所周知的电路,例如可以使用数字电路、以及利用计算机和数字处理器的运算处理而实现的电路,所以,如果是业内人士,就可以根据图13制造声音处理装置。首先,说明各采样的处理。声源信号11作为扬声器输出信号13从扬声器输出。供给单元aa7保持现时刻的脉冲响应(FIR滤波器的系数),并将现时刻的脉冲响应16供给生成单元aa4。
声源信号11传送给生成单元aa4,由生成单元aa4通过FIR滤波器生成模拟音响回波信号15。在消除单元aa5中,将模拟音响回波信号15从麦克风输入信号12中减去,生成声源回波消除信号14。在更新单元aa3中,根据声源信号11、声源回波消除信号14和供给单元aa7保持的现时刻的脉冲响应16更新脉冲响应,生成更新脉冲响应17,并将其供给上述供给单元aa7。
供给单元aa7仅在后面所述的声音判断标志18为OFF的期间将从更新单元aa3供给的更新脉冲响应17作为新的现时刻的脉冲响应进行保持,而在声音判断标志18为ON的期间则舍弃从更新单元aa3供给的更新脉冲响应17。由消除单元aa5生成的音响回波消除信号14也传送给判断单元aa1。下面,说明各帧的处理。按各采样传送给判断单元aa1的音响回波消除信号14在判断单元aa1中存储到缓冲器中,在积存了1帧的阶段,由判断单元aa1判断在麦克风输入单元(图中未示出)中是否存在语音,并输出声音判断标志18。在判断结果为肯定时(检测到存在语音时),声音判断标志的值就是ON。在判断结果为否定时(未检测到存在语音时),则声音判断标志的值就是OFF。
在该判断处理中,利用音响回波消除信号14的时间信息和频率信息判断在麦克风输入信号12中是否包含语音信号。作为判断的方法,可以使用能够检测重叠在声源未知的加法性噪音上的语音的算法VAD(Voice Activity Detection)。例如,在Recommendation GSM 06.32中,通过将信号进行LPC分析后的残差能量与阈值进行比较,来检测声音,但是,由于可以与声源未知的加法性噪音的能量电平相适应地改变阈值,所以,可以将声源未知的加法性噪音与语音分离。
在进行阈值的自适应化处理时,利用了频谱的稳定性(频率信息)和音调性(时间信息)。在上述判断处理的结果是声音判断标志18为OFF时,控制单元aa6就取出供给单元aa7保持的现时刻的脉冲响应16,作为所希望的脉冲响应存储到保存单元aa2中。
另一方面,在声音判断标志18为ON时,由于供给单元aa7保持的脉冲响应有可能偏离所希望的值,所以,控制单元aa6就从保存单元aa2中取出1个保存脉冲响应,并将其改写到供给单元aa7保持的脉冲响应中。保存单元aa2可以是能够保存1个以上的脉冲响应的FIFO(先进先出)。
(实施例2)
图15表示实施例2的基本结构。首先,具有在实施例1中说明的图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波,生成音响回波消除信号14。其次,在频谱计算单元bb1中,对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。
频谱21传送给对数倒频谱计算单元bb4,变换为各一定帧的对数倒频谱24。在对照单元bb5中,使用各一定帧的对数倒频谱24进行对照,并输出识别结果25。在进行对照时,可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。
(实施例3)
图16表示实施例3的基本结构。对于和图15的实施例2相同的部分标以相同的符号。首先,具有图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波,生成音响回波消除信号14。其次,在频谱计算单元bb1中,对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给频谱平均计算单元bb2,对各一定帧利用(8)式取出频谱平均值22。
另一方面,由频谱计算单元bb1取出的频谱21供给频谱平均减法单元bb3,利用(9)式减去频谱平均值22,求出噪音消除频谱23。噪音消除频谱23传送给对数倒频谱计算单元bb4,变换为各一定帧的对数倒频谱24。在对照单元bb5中,使用各一定帧的对数倒频谱24进行对照,输出识别结果25。在进行对照时,可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。
(实施例4)
图17表示实施例4的基本结构。在图17中,对于和实施例2或实施例3相同的部分标以相同的符号。首先,具有图14的结构的手头紧处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波,生成音响回波消除信号14。其次,在频谱计算单元bb1中,对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给频谱平均计算单元bb2,对各一定帧利用(8)式求出频谱平均值22。
另一方面,由频谱计算单元bb1求出的频谱21供给频谱平均减法单元bb3,利用(9)式减去频谱平均值22,求出噪音消除频谱23。噪音消除频谱23传送给对数倒频谱计算单元bb4,变换为各一定帧的对数倒频谱24。
对数倒频谱24传送给对数倒频谱平均计算单元cc1,在此求出对数倒频谱平均值31。在进行对数倒频谱平均值的计算时,可以使用例如(19)式和(20)式。其次,在对数倒频谱平均计算单元cc2中,将对数倒频谱平均值31从对数倒频谱24中减去,计算标准化对数倒频谱32。此外,在进行减法运算时,可以使用(21)式。在对照单元bb5中,使用各一定帧的标准化对数倒频谱32进行对照,输出识别结果25。在进行对照时,可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。
(实施例5)
图18表示实施例5的基本结构。在图18中,对于和实施例2、实施例3或实施例4相同的部分标以相同的符号。首先,具有图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波,生成音响回波消除信号14。其次,在频谱计算单元bb1中,对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给对数倒频谱计算单元bb4,变换为各一定帧的对数倒频谱24。对数倒频谱24传送给对数倒频谱平均计算单元cc1,在此求出对数倒频谱平均值31。在进行对数倒频谱平均值的计算时,可以使用例如(19)式和(20)式。
其次,在对数倒频谱平均减法单元cc2中,将对数倒频谱平均值31从对数倒频谱24中减去,计算标准化对数倒频谱32。此外,在进行减法运算时,可以使用(21)式。在对照单元bb5中,使用各一定帧的标准化对数倒频谱32进行对照,输出识别结果25。在进行对照时,可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。
(实施例6)
图19表示实施例6的基本结构。在图19中,对于和实施例2、实施例3、实施例4或实施例5相同的部分标以相同的符号。首先,由具有图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波,生成音响回波消除信号14。其次,在频谱计算单元bb1中,对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给对数倒频谱计算单元bb4,变换为各一定帧的对数倒频谱24。
对数倒频谱24传送给对数倒频谱平均计算单元cc1,在此求出对数倒频谱平均值31。在计算对数倒频谱平均值时,可以使用例如(19)式和(20)式。其次,在对数倒频谱平均减法单元cc2中,将对数倒频谱平均值31从对数倒频谱24中减去,计算标准化对数倒频谱32。此外,在进行减法运算时,可以使用(21)式。在对照单元bb5中,使用各一定帧的标准化对数倒频谱32,进行对照,输出识别结果25。在进行对照时,可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。
Claims (2)
1.一种声音处理装置,其特征在于包括:通过富里叶变换对各帧求频谱的单元;根据该得到的频谱求对数倒频谱的单元;对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元;和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。
2.一种声音处理方法,其特征在于包括:通过富里叶变换对各帧求频谱的步骤;根据该得到的频谱求对数倒频谱的步骤;对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的步骤;和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP51577/1997 | 1997-03-06 | ||
JP9051577A JPH10257583A (ja) | 1997-03-06 | 1997-03-06 | 音声処理装置およびその音声処理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB98803137XA Division CN1159948C (zh) | 1997-03-06 | 1998-03-05 | 声音处理装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1545368A true CN1545368A (zh) | 2004-11-10 |
CN100512510C CN100512510C (zh) | 2009-07-08 |
Family
ID=12890808
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100476438A Expired - Fee Related CN100512510C (zh) | 1997-03-06 | 1998-03-05 | 声音处理装置和方法 |
CNB98803137XA Expired - Fee Related CN1159948C (zh) | 1997-03-06 | 1998-03-05 | 声音处理装置和方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB98803137XA Expired - Fee Related CN1159948C (zh) | 1997-03-06 | 1998-03-05 | 声音处理装置和方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7440891B1 (zh) |
EP (1) | EP0969692B1 (zh) |
JP (2) | JPH10257583A (zh) |
KR (1) | KR100382024B1 (zh) |
CN (2) | CN100512510C (zh) |
AT (1) | ATE509477T1 (zh) |
AU (1) | AU6120398A (zh) |
WO (1) | WO1998039946A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358963A (zh) * | 2017-07-14 | 2017-11-17 | 中航华东光电(上海)有限公司 | 一种实时去呼吸声装置及方法 |
CN108429995A (zh) * | 2017-02-14 | 2018-08-21 | 株式会社东芝 | 音响处理装置、音响处理方法以及存储介质 |
CN109346074A (zh) * | 2018-10-15 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法及系统 |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4554044B2 (ja) * | 1999-07-28 | 2010-09-29 | パナソニック株式会社 | Av機器用音声認識装置 |
FI19992351L (fi) | 1999-10-29 | 2001-04-30 | Nokia Mobile Phones Ltd | Puheentunnistus |
GB2364121B (en) * | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
JP2004506944A (ja) * | 2000-08-15 | 2004-03-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 共通エコー相殺機能を備える複数装置型オーディオ/ビデオ |
DE10040466C2 (de) * | 2000-08-18 | 2003-04-10 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
US6771769B2 (en) * | 2000-12-28 | 2004-08-03 | Richard Henry Erving | Method and apparatus for active reduction of speakerphone singing |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
KR100552468B1 (ko) * | 2001-07-19 | 2006-02-15 | 삼성전자주식회사 | 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법 |
JP4530587B2 (ja) * | 2001-07-30 | 2010-08-25 | 株式会社リコー | 放送受信装置 |
CN100477705C (zh) * | 2002-07-01 | 2009-04-08 | 皇家飞利浦电子股份有限公司 | 音频增强系统、配有该系统的系统、失真信号增强方法 |
JP3922997B2 (ja) * | 2002-10-30 | 2007-05-30 | 沖電気工業株式会社 | エコーキャンセラ |
JP2005148199A (ja) * | 2003-11-12 | 2005-06-09 | Ricoh Co Ltd | 情報処理装置、画像形成装置、プログラム、及び記憶媒体 |
JP4333369B2 (ja) * | 2004-01-07 | 2009-09-16 | 株式会社デンソー | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 |
DE102004001863A1 (de) * | 2004-01-13 | 2005-08-11 | Siemens Ag | Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals |
JP4283212B2 (ja) * | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
JP4297055B2 (ja) * | 2005-01-12 | 2009-07-15 | ヤマハ株式会社 | カラオケ装置 |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
DE102005043641A1 (de) * | 2005-05-04 | 2006-11-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Generierung und Bearbeitung von Toneffekten in räumlichen Tonwiedergabesystemen mittels einer graphischen Benutzerschnittstelle |
KR100784456B1 (ko) | 2005-12-08 | 2007-12-11 | 한국전자통신연구원 | Gmm을 이용한 음질향상 시스템 |
KR101151746B1 (ko) | 2006-01-02 | 2012-06-15 | 삼성전자주식회사 | 오디오 신호용 잡음제거 방법 및 장치 |
US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
DE102006020832B4 (de) * | 2006-05-04 | 2016-10-27 | Sivantos Gmbh | Verfahren zum Unterdrücken von Rückkopplungen bei Hörvorrichtungen |
US8094838B2 (en) * | 2007-01-15 | 2012-01-10 | Eastman Kodak Company | Voice command of audio emitting device |
US8195454B2 (en) * | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
US20080312916A1 (en) * | 2007-06-15 | 2008-12-18 | Mr. Alon Konchitsky | Receiver Intelligibility Enhancement System |
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
US7987090B2 (en) * | 2007-08-09 | 2011-07-26 | Honda Motor Co., Ltd. | Sound-source separation system |
US7907977B2 (en) * | 2007-10-02 | 2011-03-15 | Agere Systems Inc. | Echo canceller with correlation using pre-whitened data values received by downlink codec |
JP5229234B2 (ja) * | 2007-12-18 | 2013-07-03 | 富士通株式会社 | 非音声区間検出方法及び非音声区間検出装置 |
WO2009110574A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
JP5200737B2 (ja) * | 2008-07-30 | 2013-06-05 | 船井電機株式会社 | 差動マイクロホンユニット |
EP2237271B1 (en) | 2009-03-31 | 2021-01-20 | Cerence Operating Company | Method for determining a signal component for reducing noise in an input signal |
BR112012008671A2 (pt) | 2009-10-19 | 2016-04-19 | Ericsson Telefon Ab L M | método para detectar atividade de voz de um sinal de entrada recebido, e, detector de atividade de voz |
US8447595B2 (en) * | 2010-06-03 | 2013-05-21 | Apple Inc. | Echo-related decisions on automatic gain control of uplink speech signal in a communications device |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
KR20130091910A (ko) * | 2012-02-09 | 2013-08-20 | 한국전자통신연구원 | 광대역 어커스틱 에코 제거 장치 및 방법 |
CN103839551A (zh) * | 2012-11-22 | 2014-06-04 | 鸿富锦精密工业(深圳)有限公司 | 音频处理系统与音频处理方法 |
WO2014137341A1 (en) * | 2013-03-07 | 2014-09-12 | Nuance Communications, Inc. | Method for training an automatic speech recognition system |
US10424292B1 (en) | 2013-03-14 | 2019-09-24 | Amazon Technologies, Inc. | System for recognizing and responding to environmental noises |
CN104050971A (zh) | 2013-03-15 | 2014-09-17 | 杜比实验室特许公司 | 声学回声减轻装置和方法、音频处理装置和语音通信终端 |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US9831843B1 (en) | 2013-09-05 | 2017-11-28 | Cirrus Logic, Inc. | Opportunistic playback state changes for audio devices |
US9633671B2 (en) * | 2013-10-18 | 2017-04-25 | Apple Inc. | Voice quality enhancement techniques, speech recognition techniques, and related systems |
US9525940B1 (en) | 2014-03-05 | 2016-12-20 | Cirrus Logic, Inc. | Multi-path analog front end and analog-to-digital converter for a signal processing system |
US9774342B1 (en) * | 2014-03-05 | 2017-09-26 | Cirrus Logic, Inc. | Multi-path analog front end and analog-to-digital converter for a signal processing system |
US9306588B2 (en) | 2014-04-14 | 2016-04-05 | Cirrus Logic, Inc. | Switchable secondary playback path |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
US10785568B2 (en) | 2014-06-26 | 2020-09-22 | Cirrus Logic, Inc. | Reducing audio artifacts in a system for enhancing dynamic range of audio signal path |
US9596537B2 (en) | 2014-09-11 | 2017-03-14 | Cirrus Logic, Inc. | Systems and methods for reduction of audio artifacts in an audio system with dynamic range enhancement |
US9503027B2 (en) | 2014-10-27 | 2016-11-22 | Cirrus Logic, Inc. | Systems and methods for dynamic range enhancement using an open-loop modulator in parallel with a closed-loop modulator |
US9973633B2 (en) | 2014-11-17 | 2018-05-15 | At&T Intellectual Property I, L.P. | Pre-distortion system for cancellation of nonlinear distortion in mobile devices |
US9607627B2 (en) * | 2015-02-05 | 2017-03-28 | Adobe Systems Incorporated | Sound enhancement through deverberation |
US9584911B2 (en) | 2015-03-27 | 2017-02-28 | Cirrus Logic, Inc. | Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses |
US9959856B2 (en) | 2015-06-15 | 2018-05-01 | Cirrus Logic, Inc. | Systems and methods for reducing artifacts and improving performance of a multi-path analog-to-digital converter |
JP6532021B2 (ja) * | 2015-09-29 | 2019-06-19 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US9955254B2 (en) | 2015-11-25 | 2018-04-24 | Cirrus Logic, Inc. | Systems and methods for preventing distortion due to supply-based modulation index changes in an audio playback system |
US10225395B2 (en) * | 2015-12-09 | 2019-03-05 | Whatsapp Inc. | Techniques to dynamically engage echo cancellation |
US9543975B1 (en) | 2015-12-29 | 2017-01-10 | Cirrus Logic, Inc. | Multi-path analog front end and analog-to-digital converter for a signal processing system with low-pass filter between paths |
US9880802B2 (en) | 2016-01-21 | 2018-01-30 | Cirrus Logic, Inc. | Systems and methods for reducing audio artifacts from switching between paths of a multi-path signal processing system |
KR20170003257U (ko) | 2016-03-10 | 2017-09-20 | 김복임 | 기능성 골프옷 가방 |
US10251002B2 (en) * | 2016-03-21 | 2019-04-02 | Starkey Laboratories, Inc. | Noise characterization and attenuation using linear predictive coding |
US9998826B2 (en) | 2016-06-28 | 2018-06-12 | Cirrus Logic, Inc. | Optimization of performance and power in audio system |
US10545561B2 (en) | 2016-08-10 | 2020-01-28 | Cirrus Logic, Inc. | Multi-path digitation based on input signal fidelity and output requirements |
US10263630B2 (en) | 2016-08-11 | 2019-04-16 | Cirrus Logic, Inc. | Multi-path analog front end with adaptive path |
US9813814B1 (en) | 2016-08-23 | 2017-11-07 | Cirrus Logic, Inc. | Enhancing dynamic range based on spectral content of signal |
US9762255B1 (en) | 2016-09-19 | 2017-09-12 | Cirrus Logic, Inc. | Reconfiguring paths in a multiple path analog-to-digital converter |
US9780800B1 (en) | 2016-09-19 | 2017-10-03 | Cirrus Logic, Inc. | Matching paths in a multiple path analog-to-digital converter |
US9929703B1 (en) | 2016-09-27 | 2018-03-27 | Cirrus Logic, Inc. | Amplifier with configurable final output stage |
US9967665B2 (en) | 2016-10-05 | 2018-05-08 | Cirrus Logic, Inc. | Adaptation of dynamic range enhancement based on noise floor of signal |
US10321230B2 (en) | 2017-04-07 | 2019-06-11 | Cirrus Logic, Inc. | Switching in an audio system with multiple playback paths |
US10008992B1 (en) | 2017-04-14 | 2018-06-26 | Cirrus Logic, Inc. | Switching in amplifier with configurable final output stage |
US9917557B1 (en) | 2017-04-17 | 2018-03-13 | Cirrus Logic, Inc. | Calibration for amplifier with configurable final output stage |
EP3425923B1 (en) * | 2017-07-06 | 2024-05-08 | GN Audio A/S | Headset with reduction of ambient noise |
US10140089B1 (en) * | 2017-08-09 | 2018-11-27 | 2236008 Ontario Inc. | Synthetic speech for in vehicle communication |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
DK3484173T3 (en) * | 2017-11-14 | 2022-07-11 | Falcom As | Hearing protection system with own voice estimation and related methods |
JP6948609B2 (ja) * | 2018-03-30 | 2021-10-13 | パナソニックIpマネジメント株式会社 | 騒音低減装置 |
CN111261179A (zh) * | 2018-11-30 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 回声消除方法及装置和智能设备 |
EP3667662B1 (en) * | 2018-12-12 | 2022-08-10 | Panasonic Intellectual Property Corporation of America | Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program |
JP6635394B1 (ja) * | 2019-01-29 | 2020-01-22 | パナソニックIpマネジメント株式会社 | 音声処理装置および音声処理方法 |
WO2021041741A1 (en) * | 2019-08-30 | 2021-03-04 | Dolby Laboratories Licensing Corporation | Pre-conditioning audio for machine perception |
CN114650340B (zh) * | 2022-04-21 | 2024-07-02 | 深圳市中科蓝讯科技股份有限公司 | 一种回声消除方法、装置及电子设备 |
CN115223011A (zh) * | 2022-07-08 | 2022-10-21 | 广东省智能网联汽车创新中心有限公司 | 一种智能驾驶场景的对抗样本生成方法及系统 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5629296A (en) | 1979-08-17 | 1981-03-24 | Nippon Telegraph & Telephone | Standard pattern input system for voice identification |
JPH0648440B2 (ja) | 1982-05-15 | 1994-06-22 | 松下電工株式会社 | 音声特徴抽出装置 |
JPS6318797A (ja) * | 1986-07-10 | 1988-01-26 | Matsushita Electric Ind Co Ltd | ハウリング抑圧装置 |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
JPH02107236A (ja) | 1988-10-18 | 1990-04-19 | Yokogawa Medical Syst Ltd | 超音波診断用探触子 |
JPH02244096A (ja) | 1989-03-16 | 1990-09-28 | Mitsubishi Electric Corp | 音声認識装置 |
AU633673B2 (en) * | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
NL9001016A (nl) * | 1990-04-27 | 1991-11-18 | Philips Nv | Digitale echocompensator met een dubbelspraakdetector. |
JPH04230798A (ja) | 1990-05-28 | 1992-08-19 | Matsushita Electric Ind Co Ltd | 雑音予測装置 |
US5250691A (en) | 1991-09-09 | 1993-10-05 | E. R. Squibb & Sons, Inc. | Heteroaryl derivatives of monocyclic beta-lactam antibiotics |
JPH0567244A (ja) | 1991-09-09 | 1993-03-19 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
JPH05102887A (ja) | 1991-10-03 | 1993-04-23 | Toshiba Corp | 音響エコーキヤンセラ |
JP2538176B2 (ja) * | 1993-05-28 | 1996-09-25 | 松下電器産業株式会社 | エコ―制御装置 |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
GB2281680B (en) * | 1993-08-27 | 1998-08-26 | Motorola Inc | A voice activity detector for an echo suppressor and an echo suppressor |
JP3355585B2 (ja) * | 1993-08-30 | 2002-12-09 | 日本電信電話株式会社 | エコーキャンセル方法 |
JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
JP2953954B2 (ja) | 1994-05-06 | 1999-09-27 | エヌ・ティ・ティ移動通信網株式会社 | ダブルトーク検出装置およびエコーキャンセラ |
US5727124A (en) | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
JPH08123465A (ja) | 1994-10-27 | 1996-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデルの適応化法 |
US6001131A (en) * | 1995-02-24 | 1999-12-14 | Nynex Science & Technology, Inc. | Automatic target noise cancellation for speech enhancement |
JP3381112B2 (ja) * | 1995-03-09 | 2003-02-24 | ソニー株式会社 | エコー除去装置 |
US6263307B1 (en) * | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
FI110826B (fi) * | 1995-06-08 | 2003-03-31 | Nokia Corp | Akustisen kaiun poisto digitaalisessa matkaviestinjärjestelmässä |
JP2748109B2 (ja) | 1995-08-07 | 1998-05-06 | 八重洲無線株式会社 | 通信圏内外自動判別方式 |
JPH0956018A (ja) | 1995-08-10 | 1997-02-25 | Toshiba Corp | 電力用開閉装置の動作監視装置 |
JP3397568B2 (ja) | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
US5742694A (en) * | 1996-07-12 | 1998-04-21 | Eatwell; Graham P. | Noise reduction filter |
JPH10105191A (ja) | 1996-09-30 | 1998-04-24 | Toshiba Corp | 音声認識装置及びマイクロホン周波数特性変換方法 |
EP0954854A4 (en) * | 1996-11-22 | 2000-07-19 | T Netix Inc | PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION |
-
1997
- 1997-03-06 JP JP9051577A patent/JPH10257583A/ja active Pending
-
1998
- 1998-03-05 AT AT98905778T patent/ATE509477T1/de not_active IP Right Cessation
- 1998-03-05 JP JP53837498A patent/JP3229335B2/ja not_active Expired - Fee Related
- 1998-03-05 AU AU61203/98A patent/AU6120398A/en not_active Abandoned
- 1998-03-05 EP EP98905778A patent/EP0969692B1/en not_active Expired - Lifetime
- 1998-03-05 US US09/380,563 patent/US7440891B1/en not_active Expired - Fee Related
- 1998-03-05 WO PCT/JP1998/000915 patent/WO1998039946A1/ja not_active Application Discontinuation
- 1998-03-05 CN CNB2004100476438A patent/CN100512510C/zh not_active Expired - Fee Related
- 1998-03-05 KR KR10-1999-7008065A patent/KR100382024B1/ko not_active IP Right Cessation
- 1998-03-05 CN CNB98803137XA patent/CN1159948C/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108429995A (zh) * | 2017-02-14 | 2018-08-21 | 株式会社东芝 | 音响处理装置、音响处理方法以及存储介质 |
CN108429995B (zh) * | 2017-02-14 | 2020-03-13 | 株式会社东芝 | 音响处理装置、音响处理方法以及存储介质 |
CN107358963A (zh) * | 2017-07-14 | 2017-11-17 | 中航华东光电(上海)有限公司 | 一种实时去呼吸声装置及方法 |
CN109346074A (zh) * | 2018-10-15 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR100382024B1 (ko) | 2003-04-26 |
EP0969692A1 (en) | 2000-01-05 |
KR20000075980A (ko) | 2000-12-26 |
EP0969692B1 (en) | 2011-05-11 |
US7440891B1 (en) | 2008-10-21 |
EP0969692A4 (en) | 2005-03-09 |
ATE509477T1 (de) | 2011-05-15 |
JP3229335B2 (ja) | 2001-11-19 |
CN1159948C (zh) | 2004-07-28 |
WO1998039946A1 (fr) | 1998-09-11 |
JPH10257583A (ja) | 1998-09-25 |
CN1249889A (zh) | 2000-04-05 |
CN100512510C (zh) | 2009-07-08 |
AU6120398A (en) | 1998-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1159948C (zh) | 声音处理装置和方法 | |
US8706483B2 (en) | Partial speech reconstruction | |
Viikki et al. | Cepstral domain segmental feature vector normalization for noise robust speech recognition | |
US8180635B2 (en) | Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition | |
Junqua | Robust speech recognition in embedded systems and PC applications | |
Zen et al. | Continuous stochastic feature mapping based on trajectory HMMs | |
JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
CN1488136A (zh) | 噪声减少的方法和装置 | |
MX2007015446A (es) | Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje. | |
JP2005257817A (ja) | 雑音除去装置、方法、及びプログラム | |
Sun et al. | Investigations into the relationship between measurable speech quality and speech recognition rate for telephony speech | |
Nandkumar et al. | Dual-channel iterative speech enhancement with constraints on an auditory-based spectrum | |
Obuchi | Multiple-microphone robust speech recognition using decoder-based channel selection. | |
US8244538B2 (en) | Measuring double talk performance | |
Arai et al. | Intelligibility prediction of enhanced speech using recognition accuracy of end-to-end ASR systems | |
Gilloire et al. | Innovative speech processing for mobile terminals: an annotated bibliography | |
Ichikawa et al. | Dynamic features in the linear-logarithmic hybrid domain for automatic speech recognition in a reverberant environment | |
Chan et al. | A decision-directed adaptive gain equalizer for assistive hearing instruments | |
Hayashi et al. | A subtractive-type speech enhancement using the perceptual frequency-weighting function | |
Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition | |
Ahadi et al. | An energy normalization scheme for improved robustness in speech recognition. | |
Ichikawa et al. | Simultaneous adaptation of echo cancellation and spectral subtraction for in-car speech recognition | |
Menéndez-Pidal et al. | Compensation of channel and noise distortions combining normalization and speech enhancement techniques | |
Fodor et al. | A Novel Way to Start Speech Dialogs in Cars by Talk-and-Push (TAP) | |
Haderlein et al. | Speech recognition with μ-law companded features on reverberated signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090708 Termination date: 20150305 |
|
EXPY | Termination of patent right or utility model |