CN101859583A - 噪声减小设备和噪声减小方法 - Google Patents
噪声减小设备和噪声减小方法 Download PDFInfo
- Publication number
- CN101859583A CN101859583A CN201010154553A CN201010154553A CN101859583A CN 101859583 A CN101859583 A CN 101859583A CN 201010154553 A CN201010154553 A CN 201010154553A CN 201010154553 A CN201010154553 A CN 201010154553A CN 101859583 A CN101859583 A CN 101859583A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- interpolated
- period
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000011664 signaling Effects 0.000 claims description 125
- 238000012545 processing Methods 0.000 claims description 101
- 230000000737 periodic effect Effects 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 25
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 239000000470 constituent Substances 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 31
- 238000010606 normalization Methods 0.000 description 28
- 239000000203 mixture Substances 0.000 description 22
- 238000012360 testing method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000006866 deterioration Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 240000000233 Melia azedarach Species 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/24—Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Noise Elimination (AREA)
Abstract
本发明涉及噪声减小设备和噪声减小方法。该噪声减小设备包括:语音信号输入单元,把输入语音信号输入;噪声发生时段检测单元,检测噪声发生时段;噪声去除单元,去除在噪声发生时段内的噪声;生成源信号获取单元,获取生成源信号,该生成源信号的持续时间对应于与噪声发生时段对应的持续时间;间距计算单元,计算输入语音信号区间的间距;区间信号设置单元,设置在每个单位周期区间中分割的区间信号;插值信号生成单元,生成具有与噪声发生时段对应的持续时间的插值信号,并交替地排列沿顺时间方向的区间信号和沿逆时间方向的区间信号;合成单元,合成插值信号和去除了噪声的输入语音信号。
Description
技术领域
本发明涉及一种能够减小例如语音信号中包含的噪声的噪声减小设备和噪声去除(减小)方法。
背景技术
在诸如摄像机、数字照相机、蜂窝式电话或IC记录器的电子设备中具有麦克风。在这种电子设备中,诸如内部盘驱动器等的头寻道声音或缩回声音、透镜机构的透镜驱动声音或者用户操作的点击声音或触摸声音的噪声可能随着时间间歇地不规则地发生。在这种电子设备中,可能出现麦克风拾取了噪声的问题。
为了解决这个问题,日本未审专利申请公报No.2008-52772、日本未审专利申请公报No.2008-71374和日本未审专利申请公报No.2008-77707提出了这样的结构,这些结构被配置为从语音信号或振动传感器的传感器输出检测噪声发生时间,并在与检测到的噪声发生时间对应的时段内去除(减小)语音信号的噪声。
发明内容
当随着时间间歇地不规则地发生去除目标噪声时,需要确切地识别噪声发生状态并基于识别结果执行噪声去除处理。这是因为这在资源的有效利用和声音方面是有利的。
希望比以前更确切地确定去除目标噪声的发生状态以去除噪声。
根据本发明的实施例,提供了一种具有下述结构的噪声减小设备。
该噪声减小设备包括:语音信号输入装置,用于输入语音信号以获取输入语音信号;噪声发生时段检测装置,用于检测输入语音信号的噪声发生时段;噪声去除装置,用于从输入语音信号中去除在噪声发生时段内发生的噪声;生成源信号获取装置,用于从用于生成插值信号的使用语音信号中获取生成源信号,该生成源信号的持续时间被确定为对应于与噪声发生时段对应的持续时间;间距计算装置,用于计算由语音信号输入装置输入的输入语音信号中的在噪声发生时段附近的输入语音信号区间的间距;区间信号设置装置,用于从所述生成源信号设置在基于由间距计算装置计算的间距而设置的各单位周期区间中分割的区间信号;插值信号生成装置,用于基于通过连接相同单位周期区间的区间信号而形成的单位插值信号部分在时间轴上的排列,生成具有与噪声发生时段对应的持续时间的插值信号,并且用于至少在所述单位插值信号部分中交替地排列沿顺时间方向的区间信号和沿逆时间方向的区间信号;以及合成装置,用于合成所述插值信号和由噪声去除装置去除了噪声的输入语音信号并输出。
采用这种结构,从噪声发生时段内的输入语音信号中去除噪声,然后如下生成插值信号以对由于去除噪声而损失的语音进行插值。
也就是说,通过在与输入语音信号的间距对应的各预定单位周期区间中连接生成源信号的时间方向被反转的区间信号,形成单位插值信号部分,然后通过按时间顺序排列所述单位插值信号部分来生成插值信号。
以这种方式生成的插值信号被视为与输入语音信号的间距对应的频率特性的插值信号。由于振幅波形能够在区间信号的边界处彼此连接,所以能够抑制谐波。
根据本发明的实施例,能够获得高质量插值信号。此外,当通过插值信号对噪声去除之后的语音信号执行插值处理时,能够针对进行了插值的语音信号获得高质量语音。
附图说明
图1是示出在根据本发明实施例的噪声减小设备中执行的顺序流程的流程图。
图2是示出根据实施例的噪声识别处理器(第一示例)的示例性结构的框图。
图3A至图3C是示意性地示出由根据实施例的FFT单元执行的FFT处理的示例的图。
图4是示意性地示出在根据实施例的FFT单元中执行的以帧为单位的FFT处理的示例的图。
图5是示出根据实施例的三维对应构图单元的示例性结构的图。
图6是示出作为由根据实施例的FFT单元处理的结果的三维波形的图。
图7是示意性地示出由根据实施例的峰值检测部分执行的峰值检测处理的图。
图8A至8B是示出按采样点的时间顺序表示的分割频率信号的示例的图。
图9A至9C是示出沿时间轴方向和振幅轴方向对检测到峰值的分割频率信号的四次多项式进行正规化的示例的图。
图10A至10C是示出沿时间轴方向和振幅轴方向对检测到峰值的分割频率信号的二次多项式进行正规化的示例的图。
图11是示意性地示出根据实施例的匹配表中的系数图案的匹配范围的图。
图12是示出根据实施例的匹配表的详细示例的图。
图13是示出根据实施例的噪声识别处理器(第二示例)的示例性结构的框图。
图14是示出根据实施例的噪声减小设备(第一示例)的示例性结构的框图。
图15是示出根据实施例的噪声减小设备(第二示例)的示例性结构的框图。
图16是示出插值信号源生成器的示例性结构的框图。
图17是示意性地示出用作第二示例的噪声减小设备中的插值信号生成处理的示例的图。
图18A和18B是示意性地示出进行了噪声去除插值的语音信号和输入语音信号之间的切换时间的示例的图。
图19是示意性地示出计算噪声发生时段的处理的示例的图。
图20是示出根据实施例的噪声减小设备(第三示例)的示例性结构的框图。
图21是示出根据实施例的噪声减小设备(第四示例)的示例性结构的框图。
图22是示意性地示出适用于第三示例和第四示例的噪声减小设备的间距对应插值信号生成处理(第一示例和第二示例)的间距计算和源插值信号的生成的流程的图。
图23A和23B是示意性地示出第一示例的间距对应插值信号生成处理的图。
图24A和24B是示意性地示出第二示例的间距对应插值信号生成处理的图。
图25是示意性地示出适用于第三示例和第四示例的噪声减小设备的间距对应插值信号生成处理(第三示例)的间距计算和源插值信号的生成的流程的图。
图26A至26C是示意性地示出第三示例的间距对应插值信号生成处理的图。
具体实施方式
在下文中,将按照下面的顺序描述本发明的优选实施例(以下,称为实施例)。
1、噪声去除处理的总体流程
2、噪声识别处理器的示例性结构(第一示例)
2-1、总体结构
2-2、FFT处理
2-3、峰值检测
2-4、多项式计算/正规化处理
2-5、确定是否存在噪声的处理
3、噪声识别处理器的示例性结构(第二示例)
4、噪声减小设备的示例性结构(第一示例)
4-1、总体结构
4-2、确定噪声发生时段的处理
5、噪声减小设备的示例性结构(第二示例)
6、噪声减小设备的示例性结构(第三示例)
6-1、示例性总体结构
6-2、基于间距(pitch)的插值信号生成处理(第一示例)
6-3、基于间距的插值信号生成处理(第二示例)
6-4、基于间距的插值信号生成处理(第三示例)
7、噪声减小设备的示例性结构(第四示例)
以下,将使用短语“目标噪声的去除”和短语“目标噪声的减小”。然而,在说明书中,短语“目标噪声的去除”和短语“目标噪声的减小”以相同的含义使用。短语“目标噪声的去除”用于去除语音信号中交叠的噪声的处理。噪声去除的含义包括如下情况:噪声未被完全去除,噪声的一些成分在一定程度上仍然残留。短语“噪声减小”是用于这种方式的噪声去除处理的结果的短语。
1、噪声去除处理的总体流程
图1是示出在根据一个实施例的噪声减小设备中执行的噪声减小处理的总体顺序的流程图。
根据这个实施例的噪声减小设备减小语音中交叠的并且随着时间间歇地不规则地发生的噪声。可能从发生源出现随着时间间歇地不规则地发生的噪声,例如当电子设备是内置有盘驱动器的记录再现设备时,所述噪声例如为内部盘驱动器的头寻道声音或缩回声音。当电子设备包括诸如摄像机或数字照相机的成像单元时,透镜机构的透镜驱动声音和用户操作的点击声音或触摸声音变为噪声的发生源。
在图1的步骤S101中,可能与去除目标噪声合成的语音信号被首先输入。步骤S101中输入的语音信号的源是由麦克风生成的声音等,如下所述。
在步骤S102中,从在步骤S101中输入的语音信号提取与噪声对应的语音的特征量(噪声特征量)。此时,基于在步骤S103中给出的噪声的定义,从语音信号提取语音的特定特征量。
在步骤S104中,将关于在步骤S102中提取的噪声特征量的信息与关于在步骤103中输入的噪声的定义的信息进行比较。关于噪声的定义的信息包含关于从预先假定的发生源发生的噪声的声音获得的噪声特征量的数据。
作为步骤S104中的比较结果,当关于噪声的定义的信息和关于噪声特征量的信息之间的近似率等于或大于某一值时,确定存在噪声。另一方面,当近似率等于或小于某一值时,确定不存在噪声。
当在步骤S104中确定不存在噪声时,输入的语音信号在步骤S107中被输出而不执行噪声去除处理。
另一方面,当确定存在噪声时,执行步骤S105和S106中的处理。
在步骤S105中,检测噪声发生时段。也就是说,直到步骤S104,检测是否存在噪声。在步骤S105中,对检测到的噪声的发生时段(发生时间)进行检测。
在步骤S106中,执行去除在步骤S105中检测到的噪声发生时段内的在步骤S101中输入的噪声信号中发生的噪声的处理。
当在噪声去除处理中作为噪声去除语音分量时,在原始输入的语音信号的噪声去除目标区间中可能遗漏了与作为噪声被去除的语音分量对应的语音信息。在这种情况下,为了补充语音信息的遗漏,执行插值语音信号分量的处理。随后,在步骤S107中,输出经受了噪声去除和插值的语音信号。
2、噪声识别处理器的示例性结构(第一示例)
2-1、总体结构
图1中示出的步骤S101至S105的处理是通常在根据这个实施例的噪声减小设备的噪声识别处理器1中执行的处理。
图2是示出作为执行图1中示出的步骤S101至S105的处理的噪声识别处理器1的结构的第一示例的总体结构的图。
图2中示出的噪声识别处理器1包括:成帧(framing)单元11、FFT单元12、三维对应构图单元13、噪声确定单元14和匹配表15。
成帧单元11在图1的步骤S101中输入语音信号。在成帧单元11、FFT单元12和三维对应构图单元13中执行步骤S102中提取噪声特征量的处理。
2-2、FFT处理
在这个实施例中,在时间轴上输入的语音信号通过FFT(快速傅立叶变换)被变换成频域的信号(频率信号)。
成帧单元11执行这样的处理:在FFT处理之前,以帧为单位处理输入语音信号,帧是FFT处理的单位。
由成帧单元11输入的语音信号是通过预定采样频率fs和量化比特率形成的时域的实数数据(时域数据)。例如,当输入语音信号的采样频率fs是44.1kHz时,成帧单元11通过使用与预定持续时间对应的数据数量1024形成一帧,如图3A所示。
FFT单元12在一帧的每个数据中执行FFT处理以把该数据变换成由实数数据Re和虚数数据Im形成的频域数据(频率信号),如图3B和3C所示。以这种方式,通过把频域数据表示为复数数据,可以实现频域中包含相位的波表现。
当如图3A所示一帧的数据数量是1024并且采样频率fs是44.1kHz时,在实数数据Re和虚数数据Im中,尼奎斯特(Nyquist)频率是22.05kHz(44.1kHz/2)并且数据数量是512,如图3B和3C所示。实数数据Re和虚数数据Im中的每一个的频率分辨率大约为43Hz(22.05kHz/512:Nyquist频率/数据数量)。也就是说,在这种情况下,通过执行FFT处理,可以获得包含通过把从0到22.05kHz的频带范围以43Hz为单位分割为512份而获得的每个频率(以下,称为分割频率)的数据的频率信号。
例如,能够获得由FFT单元12输出的频率信号的数据作为下面的绝对值振幅Va。
式1
绝对值振幅
式1的绝对值振幅Va是使用在图3A至3C的示例中形成实数数据Re和虚数数据Im的512个数据之中相同分割频率的实数数据Re计算的。在一帧中,获得512个绝对值振幅Va以对应于每个分割频率。
在这个实施例中,位于FFT单元12的后级的三维对应构图单元13输入绝对值振幅Va以执行处理。
根据这个实施例的成帧单元11通过在沿输入语音信号的时间轴(T轴)的前后帧之间形成交叠区间来使输入语音信号形成帧,如图4所示。FFT单元12对以这种方式获得的每个帧执行FFT处理以把语音信号转换成频率信号。
这里,以这种方式在前后帧之间形成交叠区间的原因如下。
对帧的多个数据执行FFT处理。因此,在帧的开始/结束位置附近的FFT处理中,必须使用一帧的开始位置或结束位置之前的数据。然而,由于无法使用该数据,所以难以从FFT处理后的数据获得确切的值。
然而,当形成交叠区间时,使用与另一帧交叠所需的所有数据适当地执行一帧的开始/结束位置附近的FFT处理。以这种方式,通过针对FFT处理提高时间分辨率,可以更确切地获得FFT处理的计算结果。
考虑到FFT处理的频率分辨率和时间分辨率之间的平衡,必须在从0%到小于100%的值的范围中适当地设置交叠区间的交叠率,即,与一帧交叠的前一帧和后一帧的时间比。
2-3、峰值检测
由FFT单元12获得的频率信号被输出到图2中的三维对应构图单元13。
三雏对应构图单元13基于由FFT单元12获得的频率信号为语音信号的每个噪声分量生成一个多项式以获得多项式的系数图案(pattern),如下所述。也就是说,执行噪声图案识别(构图)。噪声图案识别对应于步骤S102中的噪声特征量的提取。
在图5中示出三维对应构图单元13的示例性结构。
图5中示出的三维对应构图单元13包括:峰值检测部分21和n个多项式计算/正规化部分22-1至22-n。
从FFT单元12输出的频率信号被输入到峰值检测部分21。
如上所述,来自FFT单元12的频率信号包括图3B和3C中示出的实数数据Re和虚数数据Im。例如,针对实数数据Re和虚数数据Im中的每个数据(即,在图3A至3C的示例中具有大约43Hz的频率分辨率的频带1至512(分割频率)中的每个),能够获得通过式1计算的512个绝对值振幅Va(1)至Va(512)。
作为由FFT单元12处理后的示例性结果,在图6中示出了三维波形。作为由FFT单元12获得的频率信号的该三维波形可通过在每个帧中获得的512个绝对值振幅Va(1)至Va(512)的集合而形成。
在该三维波形中,频率轴(F轴)和时间轴(T轴)在平面方向上彼此垂直,A轴代表垂直方向上的绝对值振幅的值。这里,在该三维波形中由实线包围的区域部分An中,在不同的频带中获得三个峰值。比峰值附近更加突出的波形部分对应于实际上发生噪声的区域。也就是说,区域部分An代表发生噪声的时频域(噪声发生区域)。
图5中的峰值检测部分21检测例如如图6中的噪声发生区域An中所示的三维波形的峰值。
因此,峰值检测部分21通过使用输入频率信号的数据(每个分割频率处的绝对值振幅)执行数据映射以获得图7中示出的映射数据。这个映射数据表示图6中示出的三维波形。
在图7的映射数据中,横轴代表时间,纵轴代表频率。这里,时间T1、T2、T3、T4、T5…和频率F1、F2、F3、F4、F5…的矩阵被形成为映射数据的一部分。频率F1、F2、F3、F4、F5…中的各频率对应于与包括实数数据Re和虚数数据Im的512个数据中的各数据对应的各分割频率。时间T1、T2、T3、T4、T5…中的各时间对应于获得一帧的时间。
在图7的对应关系中,峰值检测部分21从一帧中在时间T1获得的频率信号执行与频率(分割频率)F1、F2、F3、F4、F5…对应的绝对值振幅1、17、33、83、90…的映射。随后,从帧单位输入的频率信号顺序地映射与频率F1、F2、F3、F4、F5…对应的绝对值振幅,以对应于时间T2、T3、T4、T5…。
当以这种方式准备了映射数据时,峰值检测部分21从映射数据的振幅值分布中检测等于或大于1的绝对值振幅Va的峰值。在使用映射数据的峰值检测算法中,3×3矩阵的块(采样点)的集合被设置为峰值检测范围。
随后,在峰值检测范围中沿同一时间方向和同一频率方向搜索峰值,如短划线箭头所示。当沿时间方向和频率方向在相同采样点获得峰值作为搜索结果时,与该采样点对应的时频坐标被设置为第一暂时峰值点。
另外,在同一峰值检测范围中沿与时间方向/频率方向垂直的两个方向搜索峰值以超过频率和时间,如单点划线所示。当沿时间方向和频率方向在相同采样点获得峰值作为搜索结果时,该采样点的时频坐标被设置为第二暂时峰值点。
当第一暂时峰值点与第二暂时峰值点相同时,该采样点的时频坐标被设置为真实峰值点。
在图7的示例中,通过峰值检测算法,具有绝对值振幅141的采样点的坐标(T2,F4)和具有绝对值振幅166的采样点的坐标(T4,F2)被设置为在映射数据上检测到的峰值。
在这个实施例中,当在分割频率信号中检测峰值时,与分割频率对应的时间顺序的变化同频率方向上的振幅的变化一起显示。也就是说,基于由频率轴和时间轴形成的绝对值振幅的二维分布检测峰值。因此,更确切地检测峰值。
该峰值检测方法只是个示例。实际上,在峰值检测范围中形成的采样点的数量可以进一步增加。此外,在为检测峰值而搜索的轴中,可以选择在该峰值检测方法中使用的四个方向中的至少一个。
2-4、多项式计算/正规化处理
在图8A和图8B中,分别利用特定频率Fa和Fb下绝对值振幅随时间的变化来描述基于从FFT单元12输出的频率信号获得的时间顺序频带信号(分割频率信号)。横轴代表时间(T轴),纵轴代表绝对值振幅(A轴)。
根据这个实施例的语音信号是数字数据,因此在时间上被离散地采样。例如,在图8A的频率Fa的频带信号中,在时间T1、T2、T3、T4、T5、T6和T7的采样点的绝对值振幅是A1a、A2a、A3a、A4a、A5a、A6a和A7a。另外,在图8B的频率Fb的频带信号中,在时间T1、T2、T3、T4、T5、T6和T7的采样点的绝对值振幅是A1b、A2b、A3b、A4b、A5b、A6b和A7b。
这里,在时间上离散地对绝对值振幅进行采样的事实意味着采样的绝对值振幅的峰值不一定表示真实频带信号的峰值。
例如,图8A中示出的采样点的绝对值振幅的峰值是在时间T4的A4a。然而,通过假想地以曲线(由图中的短划线表示)连接时间T1至T7的绝对值振幅A1a至A7a而推定的真实峰值存在于时间T4之前。
同样地,图8B中示出的采样点的绝对值振幅的峰值是在时间T5的A5b。然而,通过假想地以曲线(由图中的短划线表示)连接时间T1至T7的绝对值振幅A1b至A7b而推定的真实峰值存在于时间T5之前。
为了从采样的绝对值振幅计算尽可能地接近于真实峰值的值,作为一种方法,使时间分辨率提高。也就是说,可以使采样频率提高。然而,由于时间分辨率和频率分辨率具有折衷权衡关系,所以最好不要过度地提高时间分辨率。为了在考虑到折衷权衡关系的情况下适当地提高时间分辨率,例如,在帧单位的FFT处理中提供了交叠区间,如图4所示。然而,当交叠率增加时,处理量变得过大。因此,实际上必须使采样点以相应的时间间隔离散。
根据检测的峰值获得的频带信号的波形每次会不同,以从由图8A和图8B中的每个短划线指示的采样点的包络线知道波形。这意味着根据由峰值检测部分21检测的峰值获得的波形可能具有噪声波形图案并且可能具有除噪声以外的必要声音波形。
因此,当由峰值检测部分21检测采样点的峰值时,获得关于与高精度地推定真实峰值位置的波形对应的图案的信息。随后,需要把这个图案与准备的噪声图案比较。
三维对应构图单元13中的多项式计算/正规化部分22-1至22-n执行下面的处理以获得对应于检测的峰值的图案。
三维对应构图单元13的峰值检测部分21输出各检测峰值1至n的峰值检测信号1至n。
在图7的对应关系中,峰值检测部分21首先检测到时间T2处频率F4的峰值1,然后输出与峰值1对应的峰值检测信号1。随后,峰值检测部分21检测到时间T4处频率F2的峰值2,然后输出与峰值2对应的峰值检测信号2。
在峰值检测信号中,被检测为峰值的采样位置的绝对值振幅点被设置为基准采样点。在基准采样点的绝对值振幅和具有与基准采样点的频率相同的频率的采样点的绝对值振幅之中,在时间轴上紧挨在基准采样点前面的N个采样点的绝对值振幅和在时间轴上紧挨在基准采样点后面的N个采样点的绝对值振幅被首先输出。
这里,根据由多项式计算/正规化部分22(22-1至22-n)计算的多项式的次数设定来确定紧挨在基准采样点前面和后面的各N个采样点,如下所述。
多项式计算/正规化部分22首先计算通过与作为峰值检测信号输入的一个特定频率对应的基准采样点(具有绝对值振幅)和在时间上分别位于该基准采样点前面和后面的各N个采样点(以下,基准采样点和分别位于该基准采样点前面和后面的各N个采样点被称为计算采样点)的曲线的多项式,或者计算近似这些采样点的曲线的多项式。这里,采样点指的是其采样时间和绝对值振幅分别由x轴和y轴表示的点。
以这种方式获得的多项式代表检测到峰值的频带信号的波形。
作为通过插值多个采样点(即,它们的坐标)来计算曲线的多项式的方法,已知拉格朗日插值法、样条插值法、最小均方近似法等。在这个实施例中,可以使用这些方法中的任何方法。在下面的描述中,将使用拉格朗日插值法。
将简单地对拉格朗日插值法进行描述。
假定在n+1个离散的采样点x0、x1、x2、…、xn(其中,x0<x1<x2<…<xn)存在数据y0、y1、y2、…、yn。通过点(x0,y0)、(x1,y1)、(x2,y2)、…、(xn,yn)的拉格朗日插值曲线的函数F(x)是n次多项式,并且能够通过以下描述的式2来获得。
式2
gi(x)=L(x)/(x-xi)、(i=0,1,2,……,n)
L(x)=(x-x0)(x-x1)(x-x2)……(x-xn)
在图9A中示出由四次多项式表示基于峰值检测信号检测峰值的频带信号的示例。
在该四次多项式中,需要五个(=n+1)采样点。因此,对于在这种情况下的峰值检测信号,基准采样点和与基准采样点的频率相同的频率的在时间上分别位于基准采样点前面和后面的各两个采样点被输出到多项式计算/正规化部分22。
在图9A中,显示了五个坐标(0.0,7.0)、(-1.0,6.0)、(-2.0,1.0)、(1.0,3.0)和(2.0,1.0)作为五个采样点。
在这些坐标之中,坐标(0.0,7.0)是基准采样点,坐标(-1.0,6.0)和(-2.0,1.0)是紧挨在基准采样点前面的两个采样点,坐标(1.0,3.0)和(2.0,1.0)是紧挨在基准采样点后面的两个采样点。
多项式计算/正规化部分22计算通过这些采样点的四次多项式。在表达式1中示出了该四次多项式。
F(x)=0.3x4+0.5x3-2.8x2-2.0x+7.0 表达式1
图9A中示出的曲线通过表达式1获得。
从图9A的曲线可以看出,通过表达式1获得的四次多项式的最大值(极值)不同于基准采样点的y坐标值。也就是说,在这个实施例中,通过形成更高次多项式,能够在频带信号(分割频率信号)中获得更加近似于真实波形的波形。以这种方式,能够更确切地获得频带信号的峰值电平和峰值时间。
多项式处理是通过把时间轴(图9A至9C和图10A至10C中的x轴)加到具有频率轴和振幅轴的二维频率信号来形成三维频率信号的处理。
随后,多项式计算/正规化部分22对通过表达式1获得的四次多项式进行正规化。这种正规化是使奇数次项的系数近似于0或足以视为0的值,并简化与匹配表15的比较处理以确定噪声的处理,如下所述。
为了执行正规化,多项式计算/正规化部分22首先通过使通过四次多项式最初计算的最大值的x坐标变为0来执行四次多项式的转换,如图9A和9B所示,也就是说,多项式计算/正规化部分22执行X轴方向(即,时间轴方向)的正规化。
在表达式2中示出了代表图9B中示出的曲线的四次多项式,即,通过时间轴方向的正规化获得的四次多项式。
F(x)=0.3x4+0.1x3-3.1x2+7.3表达式2
通过比较表达式2和表达式1可知,x3的奇数次系数被转换为0.1,即,足以视为0的值。此外,x的奇数次项的系数被转换为0。
上述时间轴方向的正规化基于这样的事实:“随着时间间歇地不规则地发生的噪声”即去除目标在一定时间内相对急剧地增加和减小。也就是说,具有该性质的噪声的波形以峰值点为基准左右对称。因此,该噪声强烈地倾向于具有偶函数的曲线。此外,当执行时间轴方向的正规化时,如图9B所示,奇数次项的系数被转换为0或与0相当的值。以这种方式,抑制了以下描述的系数图案的变化,并且在匹配表15中准备的匹配范围的系数图案也受到限制。因此,容量变小。
多项式计算/正规化部分22还执行振幅轴方向的正规化,从图9B和9C中的转变可以看出。也就是说,图9B中示出的最大值的坐标是(0.0,7.3)。示出了Y坐标值为7.3的截距,但此时的截距的值不是整数值。因此,多项式计算/正规化部分22执行正规化以使截距的值为整数值。这里,执行正规化以使截距的值变为最接近于正规化前的截距的坐标的值的整数值。
以这种方式,获得表达式3作为四次多项式。该曲线的最大值的坐标是(0.0,7.0),如图9C所示。
F(x)=0.3x4+0.1x3-3.1x2+7.0 表达式3
当截距以这种方式变为整数值时,对于系数图案中的截距的值而言仅需要整数值。因此,能够更容易地简化系数图案。
将参照图10A至10C描述如下的情况:使图9A至9C中的检测到峰值的频带信号表达为二次多项式。
在二次多项式(其中,n=2)中,多项式计算/正规化部分22采用基准采样点和在时间上位于基准采样点前面和后面的各一个采样点(即,总共3(=n+1)个采样点)作为峰值检测信号。然后,在与图9A至9C中的频带信号相同的频带信号的情况下,获得三个采样点(0.0,7.0)、(-1.0,6.0)和(1.0,3.0)作为峰值检测信号,如图10A所示。
通过拉格朗日插值法使用这些采样点获得的二次多项式是表达式4。在图10A中示出该曲线。
F(x)=-2.5x2-1.5x+7.0表达式4
接下来,通过在时间轴方向上对表达式4进行正规化获得的二次多项式是表达式5。通过在时间轴方向上的正规化获得的二次多项式的曲线显示在图10B中。
F(x)=-2.5x2+7.2表达式5
从表达式5中可知,通过在时间轴方向上的正规化,x的奇数次项的系数变为0。
另外,通过在振幅轴方向上对表达式5进行正规化获得的二次多项式是表达式6。通过在振幅轴方向上的正规化获得的二次多项式的曲线显示在图10C中。
F(x)=-2.5x2+7.0表达式6
这里,四次多项式和二次多项式被用作在多项式计算/正规化部分22中正规化的多项式的示例。然而,在这个实施例中,例如,可以使用六次多项式或除四次多项式和二次多项式以外的多项式。
在以上对正规化的描述中,首先执行时间轴方向的正规化,然后执行振幅轴方向的正规化。然而,实际上,通过适当地执行时间轴方向和振幅轴方向的正规化,正规化最终会收敛,并且在收敛完成之前可以交替地执行时间轴方向的正规化和振幅轴方向的正规化。
当检测到峰值的频带信号的多项式和正规化完成时,多项式计算/正规化部分22输出代表正规化多项式的系数的数据。
也就是说,四次多项式可被表示为F(x)=ax4+bx3+cx2+dx+e。因此,多项式计算/正规化部分22输出代表正规化四次多项式的系数[a、b、c、d和e1的组合的数据。这里,截距(e)被用作x0的系数。
另外,二次多项式可被表示为F(x)=ax2+bx+c。因此,多项式计算/正规化部分22输出代表正规化二次多项式的系数[a、b和c]的组合的数据。
多项式计算/正规化部分22-1至22-n输出分别代表相应频带信号的系数的组合的数据(峰值1的系数数据至峰值n的系数数据)。峰值1的系数数据至峰值n的系数数据是三维对应构图单元13的输出。也就是说,峰值1的系数数据至峰值n的系数数据是频带信号被假定为检测到峰值(即,噪声被构图)的频带信号的数据。如图2和图5所示,为了方便,作为峰值1的系数数据至峰值n的系数数据的构图数据基于通过拉格朗日插值法获得的函数F(x)的系数被表示为F(x)。
2-5、确定是否存在噪声的处理
从三维对应构图单元13输出的图案数据F(x)被输入到噪声确定单元14,如图2所示。
噪声确定单元14把图案数据F(x)与匹配表15中保持的参考图案数据P(x)进行比较。随后,基于比较结果,噪声确定单元14针对每个分割频率确定是否存在噪声。
这里,将描述参考图案数据P(x)。
根据这个实施例的噪声减小设备假定:存在去除目标噪声并且针对这个噪声(称为假定噪声)执行上述多项式计算和正规化处理。这里,计算二次多项式(正规化二次多项式)。
图11是示意性地示出频率和以上述方式获得的假定噪声的正规化二次多项式的系数a、b和c的数值范围之间的关系的图。
在图11中,纵轴代表多项式的系数值,横轴代表频率。从图11可知,假定噪声的正规化二次多项式的系数的数值范围是根据频率确定的。
在这个实施例中,以这种方式获得的假定噪声的正规化二次多项式的系数图案的范围被用作匹配范围。在图11中,系数a和b以及系数a与c之间的系数比-c/a被定义为匹配范围。
例如,替代系数比-c/a,可将系数c一般地定义为匹配范围。然而,在根据这个实施例的正规化多项式中,当系数a大时,系数c(截距)倾向于增大。因此,定义了系数比-c/a,而非系数c。以这种方式,与简单地将系数c确定为匹配范围的情况相比,使系数的变化平均化。结果,由于抑制了匹配范围的变化并且能够使匹配范围更小,所以能够期待更准确地获得噪声确定结果。
保持参考图案数据P(x)的匹配表15变为代表图11中示出的系数a和b以及系数比-c/a的匹配范围的表格式的数据(匹配数据)。匹配表15的详细示例显示在图12中。实际上,存储在匹配表中的数据存储于例如存储器等。
图12中示出的匹配表15是FFT处理后的数据,并且假设已获得图3B和3C中示出的数据。此外,为了方便,FFT处理后的信号的频带(Nyquist频率)假设为22.1kHz。
在图12示出的匹配表15中,FFT处理后的数据位置1到512根据每个预定范围进行分割。这里,该范围被分割成数据位置1到8、数据位置9到40、数据位置41到53以及数据位置54到512。这意味着FFT处理后的数据(频率信号)的频带22.1kHz(源信号的Nyquist频率)被分割成四个频带范围(分割频带范围)。换句话说,在每个分割频带范围中,与数据位置1到512对应的512个分割频率被分成四组。
对于与每个分割频带范围对应的实际频率范围,数据位置1到8在从43.1Hz到344.5Hz的范围中,数据位置9到40在从387.6Hz到1.72kHz的范围中,数据位置41到53在从1.77kHz到2.28kHz的范围中,数据位置54到512在从2.33kHz到22.1kHz的范围中。
针对分别与数据位置1到8、数据位置9到40和数据位置41到53对应的从43.1Hz到344.5Hz、从387.6Hz到1.72kHz和从1.77kHz到2.28kHz的三个分割频带范围,示出了系数a和b以及系数比-c/a的每个匹配范围的上限和下限。
没有针对与数据位置54到512对应的从2.33kHz到22.1kHz的最高分割频带范围存储有效上限和下限。这意味着在高于大约2.3kHz的频带中不发生假定噪声。换句话说,假定噪声发生在等于或低于大约2.3kHz(2.28kHz)的频带中。
在这种情况下,匹配表15中实际上包含的数据是与数据位置1到8(从43.1Hz到344.5Hz的分割频带频率)、数据位置9到40(从387.6Hz到1.72kHz的分割频带频率)和数据位置41到53(从1.77kHz到2.28kHz的分割频带频率)对应的匹配范围(上限和下限)的数据。以这种方式,匹配表15不一定具有根据与FFT处理后的数据对应的所有分割频率的匹配范围的数据。匹配表15可具有仅与发生噪声的频带范围的分割频率对应的匹配范围的数据。以这种方式,能够减小匹配表15中实际上所需的数据大小。
如上所述,匹配表15可以仅具有系数c而非系数比-c/a的匹配范围。图12在由短划线指示的框中显示了系数c的每个匹配范围的上限/下限。
由噪声确定单元14执行的噪声确定处理按下述方式执行,例如对应于图12中示出的匹配表15的结构的情况。
噪声确定单元14首先从三维对应构图单元13输入与检测到峰值的每个频带信号对应的峰值1的系数数据至峰值n的系数数据作为图案数据F(x)。从匹配表15输入与峰值1的系数数据至峰值n的系数数据对应的分割频率(数据位置)的系数a和b以及系数比-c/a(或系数c)的匹配范围(上限/下限)的数据作为参考图案数据P(x)。
随后,噪声确定单元14通过确定由峰值1的系数数据表示的系数a和b以及系数比-c/a是否包含于与同一分割频率(数据位置)对应的系数a和b以及系数比-c/a的匹配范围中来执行比较处理。
当由峰值1的系数数据表示的所有系数a和b以及系数比-c/a包含在该匹配范围中时,基于峰值1的系数数据的频带信号被确定为噪声。也就是说,获得了存在噪声的确定结果。另一方面,当由峰值1的系数数据表示的系数a和b以及系数比-c/a中的至少一个不包含在该匹配范围中时,获得了不存在噪声的确定结果。
同样,基于由峰值2的系数数据至峰值n的系数数据中的各系数数据表示的所有系数a和b以及系数比-c/a是否包含在该匹配范围中,确定对于该分割频率是否存在噪声。
以这种方式,在这个实施例中,对于每个分割频率确定是否存在噪声。
可以考虑确定是否存在噪声的不同方法。例如,当由系数数据表示的一定数量以上的系数包含在该匹配范围中时,可确定存在噪声。另一方面,可针对由系数数据表示的系数值计算与距匹配范围中的基准值的距离对应的评估值。基于该评估值,可确定是否存在噪声。
上述三维对应构图单元13允许峰值检测部分21首先对每个分割频率的频带信号执行峰值检测,然后仅对检测到峰值的频带信号执行多项式计算/正规化处理。
根据这个实施例,峰值检测部分21可被省略并且可以不执行峰值检测。在这种情况下,各个多项式计算/正规化部分22-1至22-n设置在各分割频率中。在图3的示例中,由于数据数量(即,分割频率的数量)是512,所以提供512个多项式计算/正规化部分22-1至22-512以对应于该数据数量。当如参照图12所述噪声的频率特性限制于FFT处理后获得的整个频带的一些频带时,可对应于与噪声对应的频带中所包含的分割频率提供多项式计算/正规化部分22。
在这种情况下,多项式计算/正规化部分22-1至22-n通常对输入频带信号的每个采样执行多项式计算/正规化处理并顺序地输出系数数据。当频带信号是噪声时,以这种方式输出的系数数据包含在匹配表15的匹配范围中。另一方面,当频带信号不是噪声时,该系数数据不包含在该匹配范围中。
然后,噪声确定单元14把通常从三维对应构图单元13作为图案数据F(x)输出的每个分割频率(频带信号)的系数数据与从匹配表15读取的参考图案数据P(x)(即,每个分割频率的每个系数的匹配范围)进行比较。作为比较结果,例如,当由系数数据表示的每个系数值包含在该匹配范围中时,确定对于该频带信号存在噪声。另一方面,当并非每个系数值都包含在该匹配范围中时,确定不存在噪声。
然而,当省略了峰值检测部分21的峰值检测时,多项式计算/正规化部分22-1至22-n需要通常执行多项式计算/正规化处理。此外,噪声确定单元14需要通常确定是否存在噪声。因此,处理量会变得相当大。
在这个实施例中,以上述方式执行峰值检测。如上所述,在这个实施例中的“随着时间间歇地不规则地发生”的噪声(去除目标)相对急剧地增加和减小。因此,当噪声发生时,相应地获得显著的峰值。这意味着:当没有检测到峰值时,可以认为没有发生噪声。因此,仅当检测到峰值时,仅通过执行多项式计算/正规化处理就足以检测到发生的噪声并且存在噪声检测处理。由于不必通常地执行多项式计算/正规化处理和噪声检测处理,所以处理量变小。例如,能够减少处理所需的资源。
根据这个实施例的噪声确定单元14能够确定是否存在噪声。此外,噪声确定单元14能够输出关于噪声确定结果的信息,并且能够根据需要输出在噪声确定结果的计算期间获取的计算结果等作为噪声识别信息。
3、噪声识别处理器的示例性结构(第二示例)
图13是示出根据实施例的噪声识别处理器的不同示例性结构(第二示例)的图。在该图中,对于与图2中的部件相同的部件给予相同的标号并省略描述。
除了图2中示出的结构以外,图13中示出的噪声识别处理器1A还包括:二维对应构图单元16、图案匹配单元17和噪声图案存储单元18。
二维对应构图单元16取得FFT单元12的FFT处理后的数据(见图3B和3C)并将该数据作为频率信号F(n)保持。这里,以如下的方式对语音信号进行构图:保持并获得以二维方式由频率轴(F轴)和振幅轴(A轴)表示的频率信号F(n)。
噪声图案存储单元18是配置为保持噪声图案P(n)的存储器。能够通过对假定噪声的频率分布进行建模来获得噪声图案P(n)的数据。
图案匹配单元17执行图案匹配处理以获得频率信号F(n)和噪声图案P(n)之间的相关度Ef。
能够通过下面的计算来获得相关度Ef。
式3
在式3中,N是一帧中FFT点(采样点)的数量。也就是说,当n=1到N的采样点的噪声图案和语音信号之间的相关性较高,相关度Ef变得接近于1。也就是说,当相关度Ef接近于1时,存在噪声的可能性高。
在图13的结构中,相关度Ef的值由噪声确定单元14取得。
基本上,如以上的描述中那样,将每个频带信号的系数图案与匹配表15的匹配范围进行比较以确定是否存在噪声。在图13中,使用匹配表15获得确定结果,并且还确定相关度Ef是否等于或大于预定阈值。也就是说,在与一个频带信号对应的噪声的确定过程中,当该频带信号的系数图案包含在匹配表15的匹配范围中并且还处于相关度Ef等于或大于阈值的频率区域中时,确定存在噪声。另一方面,当频带信号的系数图案包含在匹配表15的匹配范围中但处于相关度Ef小于阈值的频率区域中时,确定不存在噪声。因此,能够更加确切地获得噪声确定结果。
4、噪声减小设备的示例性结构(第一示例)
4-1、总体结构
图14是示出噪声减小设备的第一示例的图,该噪声减小设备包括根据实施例的作为第一示例的噪声识别处理器1或作为第二示例的噪声识别处理器1A。
图14中示出的噪声减小设备包括:麦克风31、放大器32、噪声去除滤波器33、加法器34、插值信号源生成器35、插值滤波器36、噪声识别处理器37、噪声时间生成处理器38和开关39。
麦克风31包括在安装有该图中示出的噪声减小设备的电子设备中或连接到该电子设备的外部。例如,当该电子设备是摄像机时,将麦克风31布置为接收记录语音。麦克风31接收这个实施例中的去除目标噪声和原本接收的语音。
输入到麦克风31的语音被转换成语音信号并被放大器32放大。
在这种情况下,从放大器32输出的数字语音信号(输入语音信号)被提供给开关39的端子tm3,并且还转向以输入到噪声去除滤波器33和噪声识别处理器37。
噪声去除滤波器33由BEF(带阻滤波器)等形成。噪声去除滤波器33根据指示从噪声识别处理器37输出的噪声发生的频率(分割频率)的信息(噪声发生频率指令信息),设置必须阻挡(阻止)的频率。因此,通过噪声去除滤波器33的语音信号是去除了噪声发生的频率的语音分量的语音。
加法器34合成从噪声去除滤波器33输出的语音信号和从插值滤波器36输出的插值信号。
语音信号由插值信号源生成器35和插值滤波器36生成。
插值信号源生成器35生成具有在这个实施例中视为噪声的频带(例如,在图12的结构中,43.1Hz到2.28kHz)的频率特性的信号。
图16是示出插值信号源生成器35的示例性结构的图。
图16中示出的插值信号源生成器35包括:音调信号生成单元41、M系列信号生成单元42和合成单元43。
音调信号生成单元41通过一定周期的单个或多个正弦波或波脉冲生成音调信号。由于频率特性,音调信号具有预定频率处的单个峰值或者多个峰值。
M系列信号生成单元42生成所谓的M系列随机信号,该信号的电平在整个频带上均一。这个信号的示例是白噪声。
合成单元43以预定合成比合成由音调信号生成单元41生成的音调信号和由M系列信号生成单元42生成的M系列信号并输出。从合成单元43输出的合成信号用作插值信号源。
合成比不是固定的,但是例如可以自适应性地改变。例如,通过分析从麦克风31接收的语音,计算音调信号的分量和M系列信号的分量之间的近似率。合成比在近似率的基础上变化。因此,当在接收的语音中音调信号的分量较大时,可输出通过分量合成而形成为接近于音调信号的分量的插值信号源。另一方面,当M系列信号的分量较大时,可输出通过分量合成而形成为接近于M系列信号的分量的插值信号源。
根据情况,合成比可设置为固定的,以便仅输出音调信号或仅输出M系列信号,作为插值信号源。
从插值信号源生成器35输出的插值信号源被输出到插值滤波器36。插值滤波器36是被配置为输入与从噪声去除滤波器33输出的相同的噪声发生频率指令信息并设置了与噪声去除滤波器33的滤波器特性相反的滤波器特性的滤波器。也就是说,在噪声去除滤波器33中设置的阻挡频带在插值滤波器36中被设置为通过频带。在噪声去除滤波器33中设置的通过频带在插值滤波器36中被设置为阻挡频带。
采用这种结构,插值滤波器36输出插值信号源,该插值信号源仅具有与在噪声去除滤波器33中被阻挡的频带对应的频带分量。该插值信号源作为插值信号输出到加法器34。
加法器34合成从噪声去除滤波器33输出的语音信号和从插值滤波器36输出的插值信号以把合成的信号输出到开关39的端子tm2。
噪声识别处理器37具有如上所述的图2中示出的噪声识别处理器1的结构或图13中示出的噪声识别处理器1A的结构。在作为噪声识别处理器37的噪声识别处理器1和噪声识别处理器1A中,由成帧单元11输入的输入语音信号用作通过麦克风31和放大器32获得的数字语音信号。另外,在作为噪声识别处理器37的噪声识别处理器1和噪声识别处理器1A中,噪声去除滤波器33和插值滤波器36输出噪声发生频率指令信息作为噪声识别信息。
当噪声识别处理器37确定在某频带信号(分割频率)中存在噪声时,噪声时间生成处理器38执行确定发生噪声的时段(噪声发生时段)的处理。以下描述确定噪声发生时段的处理的示例。
噪声时间生成处理器38基于确定结果,把噪声时间信号tmg_ng输出给开关39以指示噪声发生时段的定时。
开关39把端子tm1连接到端子tm3以在没有输出噪声时间信号tmg_ng的时段(即,没有发生噪声的时段(噪声不发生时段))内直接输出从放大器32输出的输入语音信号。
相反,在输出噪声时间信号tmg_ng的时段(即,发生噪声的时段)内,开关39把端子tm1连接到端子tm2以输出从加法器34输出的语音信号,即,进行了噪声去除插值处理的语音信号。
例如,当根据这个实施例的噪声减小设备被安装在能够执行记录的设备中时,记录从开关39输出的语音信号,即,从噪声减小设备输出的语音信号。
图18A是示意性地示出从开关39的端子tm1随时间输出的语音信号的图。在图18A中,横轴表示时间,纵轴表示语音信号的功率。
在图18A中,噪声发生时段对应于输出噪声时间信号tmg_ng的时段。
在噪声发生时段之前的时段内,从开关39输出直接从放大器32输入的语音信号(输入语音信号)。也就是说,输出未进行噪声去除插值处理的语音信号。这里,在噪声发生时段之前的时段内输出并且未进行噪声去除插值处理的语音信号被称为前语音信号。
随后,当噪声时间信号tmg_ng的输出开始并因此噪声发生时段开始时,未进行噪声去除插值处理的语音信号的输出终止。作为替代,从加法器34输出的信号(即,进行了噪声去除插值处理的语音信号)的输出开始。
当噪声时间信号tmg_ng的输出停止并且因此噪声发生时段终止时,开关39把来自加法器34的语音信号(进行了噪声去除插值处理的语音信号)的输出切换到来自放大器32的语音信号(未进行噪声去除插值处理的语音信号)的输出。在噪声发生时段之后的时段内输出并且未进行噪声去除插值处理的语音信号被称为后语音信号。
在噪声发生时段内从开关39输出并且进行了噪声去除插值处理的语音信号可被视为以图18A中示意性地示出的方式通过合成噪声去除信号和插值信号而形成。
这里,噪声去除信号是从噪声去除滤波器33输出的语音信号。也就是说,噪声去除信号是通过由噪声去除滤波器33从源语音信号中去除发生噪声的分割频带的分量而形成的语音信号。通过一定程度地去除发生噪声的频带,噪声去除信号的信号功率变得低于源语音信号的信号功率。然而,插值信号是由从源语音信号中去除的频带形成的语音信号。因此,通过由加法器34合成插值信号,从开关39输出并进行了噪声去除处理的语音信号具有与源语音信号相同的信号功率。图18A示出了噪声发生时段的语音信号的包络线连接到前信号和后信号的包络线。因此,进行了噪声去除处理的语音信号的信号功率(电平)与源语音信号的信号功率(电平)相同。
在这个实施例中,在噪声发生时段(其也是去除噪声的噪声去除时段)内不去除源语音信号的整个频带的分量。
例如,为了执行噪声去除和插值,通过在噪声发生时段内去除源语音信号的整个频带的分量首先去除噪声。另一方面,可将进行了噪声去除处理的语音信号与具有源语音信号的整个频带的插值信号合成以生成进行了噪声去除插值处理的语音信号。然而,在这种情况下,该语音信号在听觉方面可能不自然,这是因为语音信号容易在噪声发生时段内在整个频带变成插值信号。
然而,在这个实施例中,根据上述噪声去除滤波器33和插值滤波器36的处理,通过在噪声发生(去除)时段内从源语音信号中仅去除确定为具有噪声的分割频率的频带来去除噪声。换句话说,不发生噪声的频带保留在源语音信号中。随后,通过合成插值信号仅补充在噪声去除过程中去除了频带的语音信号的分量。以这种方式,可以提高噪声发生时段与前面和后面的语音时段的语音连续性。因此,能够更有效地实现掩蔽效应,由此获得未损坏源语音的在听觉方面自然的语音。
图18B是示出在时间轴方向合成作为前信号和后信号的源语音信号(从放大器32输出的语音信号)和噪声去除/插值信号(从加法器34输出的语音信号)的另一示例的图。
在图18A中,前信号在噪声发生时段的开始点被瞬时地切换到噪声去除/插值信号。同样地,噪声去除/插值信号被瞬时地切换到后信号。在信号切换中,例如,在去除了噪声的频带中,作为前信号的源语音信号的分量被瞬时地切换到插值信号。另外,插值信号被瞬时地切换到作为后信号的源语音信号。因此,例如,在切换时刻可能发生谐波,由此语音可能听起来不自然。
因此,在图18B中,提供了执行淡入淡出(cross-fade)处理的时段(淡入淡出时段)以在从噪声发生时段的开始点起的一定时段内逐渐减小前信号并把噪声去除/插值信号逐渐增大到其源电平。同样地,提供了在到噪声发生时段的结束点为止的一定时段内将后信号逐渐增大到其源电平并且将噪声去除/插值信号逐渐减小的淡入淡出时段。
以这种方式,通过在噪声发生时段的开始点和结束点的一定时段内对源语音信号和噪声去除/插值信号执行淡入淡出处理,可以显著地抑制谐波的发生以及避免振铃(ringing)现象、过冲(overshot)现象等。因此,能够获得在听觉方面更自然的语音。
通过在开关39中提供淡入淡出开关,能够实现淡入淡出时段的语音信号的电平变化。例如,淡入淡出开关经由控制系数可变的衰减器合成并输出两个输入语音信号。例如,控制系数c是从0到1的范围的值。衰减器输出具有源信号电平×c的电平的语音信号。
随后,在淡入淡出时段内,一个衰减器的控制系数c1随时间变化在从0到1的范围中增大,然后,另一衰减器的控制系数c2变化以满足c2=1-c1的关系。
淡入淡出时段可基于噪声时间信号tmg_ng决定。例如,噪声时间信号tmg_ng具有用于指示噪声发生时段的开始/结束时间点的细节。例如,用作淡入淡出开关的开关39在从噪声发生时段的开始时间点起的一定时段内执行所有的淡入淡出处理。此外,确定从噪声发生时段的结束时间点回溯淡入淡出时段的特定时刻,并且从该特定时刻到噪声发生时段的结束时间点执行最后的淡入淡出处理。
例如,只有进行了噪声去除插值处理的信号(即,仅从加法器34输出的语音信号)可通常地从噪声减小设备输出。然而,由于从加法器34输出的语音信号是经由配置为执行噪声去除插值处理的处理系统输出的,所以与输入语音信号相比,从加法器34输出的语音信号劣化。然而,在根据这个实施例的噪声减小设备中,来自开关39的输入语音信号在没有变化的情况下输出,以输出高质量语音信号。
4-2、确定噪声发生时段的处理
接下来,将参照图19描述由图14中的噪声时间生成处理器38执行的确定噪声发生时间的处理。在对附图的描述中,在多项式计算中使用二次多项式。
当噪声识别处理器37(噪声识别处理器1或1A)确定在某频带信号(分割频率)存在噪声时,噪声时间生成处理器38执行确定噪声发生时段的处理。
例如,当噪声识别处理器37确定存在噪声时,噪声识别处理器37例如把存在噪声的分割频率的系数数据作为噪声识别信息发送给噪声时间生成处理器38。
噪声时间生成处理器38基于以上述方式获取并由存在噪声的分割频率的系数表示的二次多项式,计算图19中示出的坐标P、Q和R。在图19中,坐标轴中的横轴和纵轴(A轴)分别表示时间和绝对值振幅Va。二次多项式变为最大值的时间被设置为水平时间轴上的0。
坐标Q(0,y1)是由系数数据表示的二次多项式的曲线的最大值的坐标。坐标P(-1,y0)是二次多项式的曲线中在时间上位于坐标Q之前的任意坐标。坐标R(1,y2)是二次多项式的曲线中在时间上位于坐标Q之后的任意坐标。这里,曲线中的坐标P在时间轴上的坐标值是-1。另外,曲线中的坐标R在时间轴上的坐标值是1。
随后,计算二次多项式的曲线的切线,即,通过坐标P(-1,y0)的切线TLp和通过坐标R(1,y2)的切线TLr。切线TLp和TLr能够由线性函数表示。
针对坐标设置阈值线Lm。阈值线Lm是表示为x=y3并且平行于时间轴的直线。在这种情况下,阈值y3是根据最大值y1通过表达式y3=y1*a(其中,a<1)计算的值。也就是说,作为相对于最大值小一定比率的值,计算阈值y3。具体地讲,阈值y3可被设置为大约为最大值y1的10%(其中,a=0.1)的较小值。
随后,计算阈值线Lm和切线TLp的交点的坐标。在这个实施例中,实际上与该交点的x坐标对应的时间被设置为噪声发生的开始时间,即噪声开始点S。
同样地,计算阈值线Lm和切线TLr的交点的坐标。实际上与该交点的x坐标对应的时间被设置为噪声发生的结束时间,即噪声结束点E。
也就是说,从噪声开始点S的时间到噪声结束点E的时间的时段是检测的噪声发生时段Tn,如图中所示。
噪声时间生成处理器38检测发生噪声的每个频带信号(分割频率)的噪声发生时段。
通过使用针对频带信号的采样点获得的多项式,检测(确定)噪声发生时段。由于如上所述将频带信号表示为多项式,所以能够获得更接近于更真实的波形的频带信号波形。以这种方式,可以高精度地对每个分割频率执行噪声确定处理。能够基于同一多项式计算噪声发生时段。因此,能够以更高的精度检测噪声发生时段的开始时间和结束时间。
随后,噪声时间生成处理器38基于以上述方式在每个分割频率确定的噪声发生时段,生成噪声时间信号tmg_ng。
例如,通过计算在每个分割频率确定的噪声发生时段的逻辑和并且通过把该逻辑和的输出设置为噪声时间信号tmg_ng,来获得噪声时间信号tmg_ng。在这种情况下,获得如下的噪声时间信号tmg_ng:该信号在至少一个分割频率下发生噪声的时段内变为H电平,并且在不存在发生噪声的分割频率的情况下变为L电平。当噪声时间信号tmg_ng处于H电平时,开关39把端子tm2连接到端子tm1以输出进行了噪声去除处理的语音信号(从加法器34输出的语音信号)。另一方面,当噪声时间信号tmg_ng处于L电平时,开关39把端子tm3连接到端子tm1以输出未进行噪声去除处理的语音信号(从放大器32输出的语音信号)。
5、噪声减小设备的示例性结构(第二示例)
图15是示出根据这个实施例的噪声减小设备的第二示例的图。在该图中,对于与图14中的部件相同的部件给予相同的标号,并且省略描述。
在图15中,替代图14中示出的插值信号源生成器35,提供了源插值信号生成器35A。
源语音信号从放大器32输入到插值信号源生成器35。从噪声时间生成处理器38输入噪声识别信息。
图14中的插值信号源生成器35独立地生成插值信号源,即插值信号的基本信号。然而,图15中的源插值信号生成器35A基于从放大器32输入的语音信号(输入语音信号)生成插值信号的基本语音信号。由源插值信号生成器35A生成的语音信号称为源插值信号并且由图14中示出的插值信号源生成器35生成。例如,源插值信号不同于作为白噪声等的插值信号源。
参照图17描述由源插值信号生成器35A生成源插值信号的处理。
图17示出源语音信号的波形。在这个波形中,横轴表示时间(T轴),纵轴表示振幅(A轴)。
例如,源插值信号生成器35A从噪声时间生成处理器38作为噪声识别信息输入指示噪声发生时段的时间ts和时间te的信号以及指示在噪声发生时段内语音信号(即,噪声)变为峰值的时间(峰值时间tq)的信号。
例如,指示噪声发生时段的时间ts和时间te的信号与从噪声时间生成处理器38输出到开关39的噪声时间信号tmg_ng相同。例如,从自噪声识别处理器37输入的噪声识别信息(正规化多项式的系数)能够获得指示峰值时间tq的信号。以这种方式,源插值信号生成器35A能够识别指示语音信号中噪声发生的开始和结束的开始时间ts和结束时间te,并且还能够识别语音信号中发生的噪声的振幅变为峰值的峰值时间tq。
这里,由噪声时间信号tmg_ng指示的噪声发生时段的时间ts和te对应于如上所述的一个或多个分割频率的噪声发生时段的逻辑和。因此,在图17中示出的语音信号中,在噪声发生时段内从时间ts到时间te发生噪声,而在时间ts之前和时间te之后没有噪声发生。
如图17所示,源插值信号生成器35A生成前插值信号和后插值信号,并把前插值信号连接到后插值信号以生成源插值信号。
源插值信号生成器35A首先执行生成前插值信号的处理以计算噪声发生时段中从开始时间ts到峰值时间tq的持续时间(时间长度)W1。随后,计算从开始时间ts回溯持续时间W1的时间tpr。获取从时间tpr到时间ts的区间中的语音信号,即紧挨在开始时间ts前面的持续时间W1的区间中的语音信号(噪声前信号),作为前插值信号。
此外,源插值信号生成器35A执行生成后插值信号的处理以计算噪声发生时段中从峰值时间tq到结束时间te的持续时间W2。随后,计算从结束时间te推进了持续时间W2的时间tps。获取从时间te到时间tps的区间中的语音信号,即紧挨在结束时间te后面的持续时间W2的区间中的语音信号(噪声后信号),作为后插值信号。
随后,源插值信号生成器35A连接以这种方式生成的前插值信号和后插值信号,使得前插值信号在时间上位于后插值信号之前。以这种方式连接的语音信号具有与噪声发生时段对应的时间长度,如图17所示。该语音信号用作源插值信号。
插值滤波器36输入由源插值信号生成器35A生成的源插值信号。如在第一示例中那样,插值滤波器36基于与输出给噪声去除滤波器33的噪声发生频率指令信息相同的噪声发生频率指令信息,仅使与由噪声去除滤波器33阻挡的频带对应的频带分量通过,并随后把该频带分量作为插值信号输出到加法器34。
即使在这种情况下,通过仅阻挡发生噪声的分割频率的分量以由噪声去除滤波器33去除该噪声分量并通过由加法器34利用插值信号补充由噪声去除滤波器33略去的频率,来生成从加法器34输出的语音信号。也就是说,获得了进行了噪声去除插值处理的语音信号。
在第二示例中,如图17所示,通过使用紧挨在噪声发生时段前面和后面的语音信号区间,生成插值信号(源插值信号)。紧挨在噪声发生时段前面和后面的语音信号区间是在任何频带中没有噪声发生的语音信号。此外,由于该语音信号是紧挨在噪声发生区间前面和后面的语音信号区间,所以该语音信号与在噪声发生区间内发生的除噪声以外的语音的关联性和连续性强。
也就是说,在这个实施例中,不发生噪声并且语音内容与噪声发生区间的语音内容具有高度连续性的语音信号被用作插值信号。因此,可以期待进行了噪声去除处理的语音在听觉方面更加自然。
由源插值信号生成器35A执行的源插值信号生成能够通过生成仅具有噪声前信号或仅具有噪声后信号的源插值信号而得到简化。这个处理与以下描述的图22中示出的源插值信号生成处理相同。
然而,语音信号的语音内容可能在噪声发生之前和噪声发生之后改变。例如,语音内容可能容易地在发生的噪声的峰值的边界处改变。因此,当在听觉方面的自然声音优先时,优选地生成前插值信号和后插值信号,并且将前插值信号和后插值信号的连接点设置为与噪声发生时段中噪声的峰值对应的时间,如图17所示。
作为生成具有前插值信号和后插值信号的源插值信号的情况的变型例,可以考虑这样的方法:将前插值信号简单地在预定边界时间点(诸如噪声发生时段的中间时间点)连接到后插值信号。
6、噪声减小设备的示例性结构(第三示例)
6-1、示例性总体结构
接下来,将描述根据这个实施例的噪声减小设备的第三和第四示例。在第三和第四示例中,应用了基于间距周期执行的插值信号生成处理,如下所述。
图20是示出作为根据这个实施例的第三示例的噪声减小设备的示例性结构的图。在图20示出的结构中,基于间距周期配置在作为图15示出的第二示例的噪声减小设备中执行的插值信号生成处理。在图20中,对于与图15中的部件相同的部件给予相同的标号,并且省略描述。
在图20示出的结构中,间距计算器51被添加到图15示出的结构。这里,替代图15中示出的源插值信号生成器35A,提供了源插值信号生成器35B,源插值信号生成器35B基于输入语音信号(使用语音信号)的间距执行插值信号生成处理(间距对应插值信号生成处理)以生成源插值信号。
在图20中,噪声去除插值单元50包括:噪声去除滤波器33、加法器34、插值信号源生成器35、源插值信号生成器35B、插值滤波器36和间距计算器51。噪声识别信息从噪声时间生成处理器38输出到噪声去除插值单元50。
从放大器32将输入语音信号输入间距计算器51以计算间距。这里,间距指的是与语音信号的基本频率对应的周期时间。
存在计算间距的各种方法。这里,例如,将简单地描述AMDF(平均振幅差函数)。AMDF仅执行加法和减法的计算处理。然而,虽然AMDF比自相关或FFT更简单并简单地执行处理,但间距的提取精度相对较高。
AMDF的间距通过式4来计算。
式4
在式4中,X表示通过时间1到N的时间窗取得的输入信号,D(m)表示输入信号X的时间差m的差的总和。计算D(m)的最小值m作为间距。D(m)的值变为最小值的情况指的是这样的情况:两个信号x的相位差是360°,也就是说,发生了一个周期的时间差,因此相同的波形彼此交叠。
关于以这种方式计算的间距的信息被源插值信号生成器35B输入并用于生成源插值信号。
由源插值信号生成器35B生成的源插值信号是具有与输入语音信号对应的频带的语音信号。如第一示例和第二示例的噪声减小设备中那样,插值滤波器36设置由从噪声识别处理器37输入的噪声识别信息提供的滤波器特性,并且仅使发生噪声的频率通过,并且使源插值信号通过。以这种方式,获得仅具有发生噪声的频率的频带特性的插值信号,并且该插值信号输入到加法器34。
加法器34合成来自噪声去除滤波器33的语音信号和该插值信号以输出合成的信号作为进行了噪声去除插值处理的语音信号。
6-2、基于间距的插值信号生成处理(第一示例)
接下来,将描述基于输入语音信号(使用语音信号)的间距在图20示出的第三示例的噪声减小设备中执行的插值信号生成处理(间距对应插值信号生成处理)。将描述间距对应插值信号生成处理的第一示例至第三示例。
图22是示意性地示出在用于执行第一示例的间距对应插值信号生成处理的图20示出的噪声减小设备中的由间距计算器51执行的间距计算和由源插值信号生成器35B执行的源插值信号(生成源信号)的生成的流程的图。
指示噪声发生时段的信号(例如,噪声时间信号tmg_ng)作为从噪声时间生成处理器38输出的噪声识别信息被输入到图20中示出的间距计算器51,以识别噪声发生时段Tn的开始时间ts。
随后,间距计算器51按照输入语音信号的时间顺序,将在识别的开始时间ts之前并在噪声发生时段Tn附近的预定时段设置为间距计算时段Tp。图22示出间距计算时段Tp被设置为紧挨在开始时间ts之前的示例。
间距计算器51通过使用以上述方式设置的间距计算时段Tp的输入语音信号,根据诸如上述AMDF的方法计算输入语音信号的间距。
这里,间距计算时段Tp是在噪声发生时段Tn之前的语音信号区间。也就是说,输入语音信号是在任何频带没有噪声发生的信号。在这个实施例中,使用没有噪声发生的区间的语音信号计算间距。以这种方式,准确地计算间距。
随后,为了生成源插值信号,源插值信号生成器35B作为从噪声时间生成处理器38输出的噪声识别信息输入表示噪声发生时段的信号(例如,噪声时间信号tmg_ng),以识别时间长度,即,噪声发生时段Tn的开始时间ts。
随后,源插值信号生成器35B设置具有通过噪声发生时段Tn=1.5*Ts1的关系表示的时间长度的噪声前源信号区间Ts1。噪声前源信号区间Ts1被设置为紧挨在输入语音信号中的开始时间ts前面,如图22所示。
源插值信号生成器35B通过使用噪声前源信号区间Ts1内的输入语音信号,以图23A和23B中示出的方式生成源插值信号。
图23A示出噪声前源信号区间Ts1的输入语音信号的所有部分。
如图23A所示,源插值信号生成器35B根据时间顺序把噪声前源信号区间Ts1的输入语音信号分割成作为由间距计算器51计算的间距的周期时间pitch的一半(pitch/2)的单位(单位周期区间)。以这种方式分割的信号单位按时间顺序称为区间信号1、2、…。
随后,源插值信号生成器35B通过使用具有pitch/2周期的区间信号1、2、…,生成源插值信号,如图23A和23B中的迁移状态所示。
也就是说,沿顺时间方向的区间信号1首先被复制作为第一个pitch/2周期区间中的插值信号。对图23A中示出的输入语音信号的区间信号1进行处理以便不加改变地按FIFO(先入先出)方式对它进行读取。也就是说,区间信号按时间顺序写入到存储器,然后按与写入时的顺序相同的顺序被读取。
在第二个pitch/2周期区间中使用沿时间顺序源信号的逆方向转换的区间信号1和2。关于沿逆方向的区间信号,图23A中示出的输入语音信号的区间信号按FILO(先入后出)方式输出。也就是说,区间信号按时间顺序写入到存储器,然后按与写入时的顺序相反的顺序被读取。
随后,对于沿逆时间方向的区间信号1和2,例如,区间信号1按照从100%到0%的比率减小并且区间信号2按照从0%到100%的比率增大,以执行淡入淡出(交叠)处理和执行合成处理。以这种方式获得的语音信号作为与第二个pitch/2周期区间对应的语音信号被连接。
在第三个pitch/2周期区间中连接沿顺时间方向的区间信号2。
以这种方式,在第一示例的间距对应插值信号生成处理中,使用与两个连续的pitch/2周期区间对应的区间信号,生成与三个连续的pitch/2周期区间对应的源插值信号。随后,例如,通过与区间信号1和2相同的处理,使用作为输入语音信号中接下来的两个连续信号的区间信号3和4来生成与接下来的三个(第四至第六)连续的pitch/2周期区间对应的源插值信号。随后,执行相同的处理,直到噪声前源信号区间Ts1的末端。
在这种情况下,使用形成噪声前源信号区间Ts1的所有区间信号形成的源插值信号的时间长度被表示为1.5*Ts1,如图22所示。也就是说,该源插值信号可被视为按照噪声前源信号区间Ts1的1.5倍在时间轴方向上扩张。
通过以基于从输入语音信号计算的间距设置的周期区间来排列区间信号而生成的插值信号具有与输入语音信号的间距对应的频率特性。也就是说,通过输入语音信号和插值信号能够获得频率特性的连续性。
这里,在图23B中,通过按照顺时间方向和逆时间方向的顺序把第一个pitch/2周期区间的结束位置处的区间信号1连接到第二个pitch/2周期区间的开始位置处的区间信号1,使相同的区间信号1的振幅彼此对应。也就是说,振幅波形在第一个pitch/2周期区间和第二个pitch/2周期区间之间的边界处被彼此连接。
同样地,通过按照逆时间方向和顺时间方向的顺序连接第二个pitch/2周期区间的结束位置和第三个pitch/2周期区间的开始位置的相同的区间信号2,振幅波形在第二个pitch/2周期区间和第三个pitch/2周期区间之间的边界处被彼此连接。也就是说,源插值信号需要在pitch/2周期区间的边界处连接。
例如,在前述的日本未审专利申请公报No.2008-52772、日本未审专利申请公报No.2008-71374和日本未审专利申请公报No.2008-77707中公开的插值信号生成方法如下执行。
也就是说,通过对噪声发生时段的开始点之前和之后的与一个间距周期对应的两个信号区间执行淡入淡出处理,生成与一个间距周期对应的加权加法信号。随后,通过反复连接一个相同的加权加法信号,生成与噪声发生时段对应的前半信号。同样地,生成后半信号。也就是说,通过对噪声发生时段的结束点之前和之后的与一个间距周期对应的两个信号区间执行淡入淡出处理,生成与一个间距周期对应的加权加法信号。随后,通过反复连接一个相同的加权加法信号,生成与噪声发生时段对应的后半信号。
随后,通过对以这种方式生成的前半信号和后半信号执行淡入淡出处理,生成与噪声发生时段对应的插值信号。
在日本未审专利申请公报No.2008-52772、日本未审专利申请公报No.2008-71374和日本未审专利申请公报No.2008-77707中,通过简单地把与一个间距周期对应的加权加法信号反复彼此连接,形成插值信号。当相同的信号被简单地重复时,在重复的周期中新出现称为比特音的噪声。例如,当噪声发生时段变得更长或者间距周期变得更短时,随着重复次数的增加,容易发生该比特音。
在日本未审专利申请公报No.2008-52772、日本未审专利申请公报No.2008-71374和日本未审专利申请公报No.2008-77707中,通过对两个语音信号执行淡入淡出处理形成插值信号,并且还通过对前半信号和后半信号执行淡入淡出处理形成最终获得的插值信号。例如,与使用单个语音信号的情况相比,通过淡入淡出处理容易保持前后语音信号之间的连续性。
然而,根据进行了淡入淡出处理的两个语音信号之间的相位差的条件,结果可能互相不匹配。因此,可能无法避免信号电平的劣化。当信号电平的劣化发生时,这种状态在噪声去除处理期间反复或持续。因此,可能无法获得充分的插值效果。
在日本未审专利申请公报No.2008-52772、日本未审专利申请公报No.2008-71374和日本未审专利申请公报No.2008-77707中,基于输入语音信号生成插值信号。因此,容易实现噪声发生时段之前和之后的语音信号和插值信号之间的连续性。然而,由于整个噪声发生时段或噪声发生时段的末端的语音信号用于半个加权加法信号中,所以可能形成混合有噪声的插值信号,因此,在听觉方面自然的语音会劣化。
然而,在参照图22以及图23A和23B描述的这个实施例中,源插值信号中的区间信号的包络线(振幅波形)在间距对应插值信号生成处理中的连接位置处连接,如上所述。因此,在这个实施例中,有效地抑制了引起区间信号的重复的比特音等。当沿相同的顺时间方向的区间信号被简单地连接时,包络线在连接点处急剧变化,因此区间信号具有谐波分量。因此,容易发生比特音。
在根据这个实施例的源插值信号中,振幅波形在时间方向反转的相同区间信号的连接位置处连接。然而,通常进行点连接,因此很少连接出平滑的切线。因此,在时间方向反转的每个区间信号的连接位置处发生谐波分量。然而,与在区间信号的简单连接中振幅波形不连续的情况相比,谐波分量较小。因此,相应地抑制了比特音。
此外,由源插值信号生成器35B生成的源插值信号通过插值滤波器36仅被限制于发生噪声的频率。此时,由于在点连接发生的谐波分量几乎被完全去除,所以不会发生问题。
在根据这个实施例的源插值信号中,针对pitch/2周期存在淡入淡出区间。然而,根据图23B,每当pitch/2周期连续三次时淡入淡出区间仅出现一次。也就是说,淡入淡出区间是整个源插值信号的1/3。因此,与对源插值信号的全部区间执行淡入淡出处理的情况相比,由于淡入淡出区间的相位条件而导致电平降低的可能性低。此外,即使当电平降低时,降低也在短时间内得到解决。因此,难以注意到该降低。
在这个实施例中,由于使用没有噪声发生的区间的输入语音信号来生成源插值信号,所以噪声混合在源插值信号中。此外,可以提高插值信号与插值信号之前和之后的输入语音信号之间的连续性。
在这个实施例中,如上所述,通过噪声去除滤波器33仅去除发生噪声的频带,并且保留没有噪声发生的频带而不改变输入语音信号。因此,通过提高插值信号与插值信号之前和之后的输入语音信号之间的连续性,获得在听觉方面自然的语音。此外,在执行间距对应插值信号生成处理的噪声减小设备中也获得在听觉方面自然的语音。
在图22中,当生成源插值信号时,噪声发生时段Tn之前的输入语音信号被用作没有噪声发生的区间的输入语音信号。然而,在上述第一示例的间距对应插值信号生成处理和下述第二示例的间距对应插值信号生成处理中,可使用噪声发生时段Tn之后的输入语音信号生成源插值信号。
在第一示例的间距对应插值信号生成处理中,如图23A和23B所示,通过把顺时间方向的区间信号和逆时间方向的区间信号均在一个区间信号中彼此连接,形成单位插值信号部分。然后,将单位插值信号部分按生成源的区间信号的时间顺序在时间轴上排列。
随后,在这种情况下,使前单位插值信号部分中的最后区间信号的pitch/2周期和后单位插值信号部分中的第一区间信号的pitch/2周期彼此交叠。随后,在该交叠的pitch/2周期中,在淡入淡出处理中执行合成。
在第一示例中,当使用相同序列(单位周期区间)的偶数个区间信号形成单位插值信号部分时,使用两个区间信号。
6-3、基于间距的插值信号生成处理(第二示例)
接下来,将参照图24A和24B描述根据这个实施例的间距对应插值信号生成处理的第二示例。
图24A和24B是示出通过相同时间(单位周期区间)的奇数个区间信号(例如,最少的三个区间信号)形成单位插值信号部分的示例的图。
在噪声减小设备中,与图22的第一示例的间距对应插值信号生成处理中同样地执行间距计算器51的间距计算和源插值信号生成器35B的源插值信号(生成源信号)的生成。
在图24A中,显示了与图23A中一样的噪声前源信号区间Ts1中的输入语音信号的所有部分。也就是说,在第二示例的源插值信号生成器35B中,噪声前源信号区间Ts1的输入语音信号也被分割成具有pitch/2周期的区间信号1、2…,这与第一示例中一样。
随后,源插值信号生成器35B在源插值信号的第一个pitch/2周期区间中沿顺时间方向布置区间信号1,如图24B所示。随后,源插值信号生成器35B在第二个pitch/2周期区间中沿逆时间方向布置区间信号1,然后在第三个pitch/2周期区间中沿顺时间方向布置区间信号1。
随后,源插值信号生成器35B在源插值信号的第四个pitch/2周期区间中沿顺时间方向布置区间信号2。随后,源插值信号生成器35B在第五个pitch/2周期区间中沿逆时间方向布置区间信号2,然后在第六个pitch/2周期区间中沿顺时间方向布置区间信号2。
也就是说,在第二示例的间距对应插值信号生成处理中,一个区间信号按照顺时间方向、逆时间方向和顺时间方向的顺序排列。该区间信号按时间顺序重复。
即使在以这种方式形成的源插值信号中,在区间信号的连接位置处的振幅波形的包络线以点连接保持。
在第二示例中,当单位插值信号部分由奇数个区间信号形成时,前单位插值信号部分的最后区间信号和后单位插值信号部分的最初区间信号按顺时间方向排列在一起。也就是说,在前单位插值信号部分的最后区间信号和后单位插值信号部分的最初区间信号所排列的时段内,在时间上连续的两个区间信号不加改变地彼此连接。因此,在这些区间信号的边界处形成振幅波形的点连接,由此获得更令人满意的切线连接。也就是说,当单位插值信号部分由奇数个区间信号形成时,单位插值信号部分可以按生成源的区间信号的时间顺序简单地彼此连接。
此外,可以不形成源插值信号中对区间信号进行淡入淡出处理的区间。因此,不存在由于进行了淡入淡出处理的两个信号的相位条件导致电平减小的问题。
在这种情况下,源插值信号具有扩展为噪声前源信号区间Ts1的3倍的时间长度。也就是说,作为与源插值信号对应的噪声发生时段Tn的关系,满足Tn=3*Ts1的关系。这意味着噪声前源信号区间Ts1具有噪声发生时段Tn的1/3的时间长度。例如,与第一示例相比,对应于相同的噪声发生时段Tn所需的噪声前源信号区间Ts1能够缩短至多1/2。
在第二示例中,缩短了生成源插值信号所需的输入语音信号的时间,因此,处理量变小。在这个实施例中,去除目标噪声是随着时间间歇地不规则地发生的噪声。当在短时间内发生了多个噪声时,在当前噪声发生时段和一个噪声发生时段之前的噪声发生时段之间,发生噪声的时段可能缩短。然而,即使在这种情况下,获得没有噪声发生的噪声前源信号的可能性仍然很高。
6-4、基于间距的插值信号生成处理(第三示例)
接下来,将参照图25和图26A至26C描述根据这个实施例的间距对应插值信号生成处理的第三示例。
图25是示意性地示出在第三示例中在噪声减小设备中由间距计算器51执行的间距计算和由源插值信号生成器35B执行的源插值信号(生成源信号)的生成的图。
在这种情况下,指示噪声发生时段的信号(例如,噪声时间信号tmg_ng)也作为从噪声时间生成处理器38输出的噪声识别信息被输入到间距计算器51。间距计算器51基于该信号识别噪声发生时段Tn的开始时间ts和结束时间te。此外,间距计算器51还基于作为从噪声时间生成处理器38输出的噪声识别信息输出并指示噪声发生时段Tn中的语音声音(噪声音)的信号,识别峰值时间tp。
随后,如第一示例中那样,间距计算器51将例如在输入语音信号的时间顺序上紧挨在开始时间ts前面的某时段设置为间距计算时段Tp1,然后通过使用间距计算时段Tp1的输入语音信号计算间距。对应于间距计算时段Tp1而计算出的间距称为前间距。
另外,间距计算器51将在输入语音信号的时间顺序上在结束时间te之后并在噪声发生时段Tn附近的预定时段设置为间距计算时段Tp2。在图25中,设置了紧挨在结束时间te之后的间距计算时段Tp2。间距计算器51通过使用间距计算时段Tp2的输入语音信号计算后间距。
随后,为了生成源插值信号,源插值信号生成器35B输入从噪声时间生成处理器38输出的噪声识别信息以识别噪声发生时段Tn的开始时间ts、结束时间te和峰值时间tp。
在这种情况下,源插值信号生成器35B把前插值信号(前生成源信号)连接到在前插值信号之后连续的后插值信号(后生成源信号)以生成与噪声发生时段Tn对应的源插值信号。
然后,源插值信号生成器35B识别作为从识别的开始时间ts到峰值时间tp的前插值信号时段Tn-1的时间长度,并基于前插值信号时段Tn-1的时间长度计算设置为紧挨在噪声发生时段前面的噪声前信号区间Ts1的时间长度。
同样地,源插值信号生成器35B识别作为从识别的峰值时间tp到结束时间te的后插值信号时段Tn-2的时间长度,并基于后插值信号时段Tn-2的时间长度计算设置为紧挨在噪声发生时段后面的后插值信号时段Ts2的时间长度。
以下参照图26A至26C描述计算噪声前信号区间Ts1的时间长度和前插值信号时段Tn-1的时间长度的方法。
接下来,将在第三示例中描述由源插值信号生成器35B执行的间距对应插值信号生成处理。
在第三示例中,如以上描述的示例中一样,源插值信号生成器35B把噪声前源信号区间Ts1和噪声后源信号区间Ts2的各输入语音信号分割成pitch/2周期的区间信号单位。
在图26A中,噪声前源信号的末端的两个区间信号N-1和N被显示为噪声前源信号区间Ts1的输入语音信号。在图26B中,噪声后源信号的前端的两个区间信号N+1和N+2被显示为噪声后源信号区间Ts2的输入语音信号。
作为生成前插值信号和后插值信号的间距对应插值信号生成处理,可以使用与第一示例中的处理对应的处理(单位插值信号部分由偶数个区间信号形成),或者可以使用与第二示例中的处理对应的处理(单位插值信号部分由奇数个区间信号形成)。在图26A至26C中,如第二示例中一样,单位插值信号部分由奇数个区间信号(例如,三个区间信号)形成。
通过与第二示例中图24A和24B示出的处理相同的处理来生成前插值信号。在图26C中,源插值信号显示在前插值信号的结束部分和后插值信号的开始部分之间的边界处。
在图26C中,通过按照顺时间方向、逆时间方向和顺时间方向的顺序排列紧挨在噪声前信号区间Ts1中的最后区间信号前面的前插值信号的结束部分的区间信号N-1来形成一个单位插值信号部分。
下一个pitch/2区间是与前插值信号和后插值信号之间的边界对应的区间。这个区间后面的pitch/2区间是后插值信号的区间。如图中所示,噪声后源信号区间Ts2的第二区间信号N+2按照顺时间方向、逆时间方向和顺时间方向的顺序排列在pitch/2区间中。随后,第三区间信号以后的每个区间信号按照顺时间方向、逆时间方向和顺时间方向的顺序排列在pitch/2区间中。当执行这种排列直到噪声后源信号区间Ts2的最后区间信号时,在末端部分形成后插值信号。
随后,将与一个pitch/2周期的区间对应的连接部分comb定位于前插值信号的最后单位插值信号部分和后插值信号的最初单位插值信号部分之间,如图26C所示。
通过对噪声前源信号区间Ts1的最后区间信号N和噪声后源信号区间Ts2的最初区间信号N+1执行淡入淡出处理而形成的语音信号被布置在连接部分comb中。在淡入淡出处理中,区间信号N在从0%到100%的范围中增大,区间信号N+1在从100%到0%的范围中减小。因此,在进行了淡入淡出处理的pitch/2区间和紧挨在进行了淡入淡出处理的pitch/2区间前面的pitch/2区间之间的边界处,在沿顺时间方向的区间信号N-1的结束位置和沿顺时间方向的区间信号N的开始位置之间获得点连接。另外,在进行了淡入淡出处理的pitch/2区间和紧挨在进行了淡入淡出处理的pitch/2区间后面的pitch/2区间之间的边界处,在沿顺时间方向的区间信号N+1的结束位置和沿顺时间方向的区间信号N+2的开始位置之间获得点连接。
通过使用前插值信号和后插值信号生成最简单的源插值信号的方法是简单地把通过单位插值信号部分的连接而形成的前插值信号连接到通过单位插值信号部分的连接而形成的后插值信号的方法。也就是说,通过去除图26C中示出的连接部分comb进行连接。然而,在这种源插值信号中,在前插值信号的结束位置和后插值信号的开始位置可能无法获得点连接。因此,在图26A至26C的示例中,提供了连接部分comb。
在生成前插值信号和后插值信号的处理中,噪声后源信号区间的输入语音信号被扩展为三倍,与第二示例的间距对应插值信号生成处理中一样。因此,噪声前源信号区间Ts1被设置为具有前插值信号区间Tn-1的1/3的时间长度。同样地,噪声后源信号区间Ts2也被设置为具有后插值信号区间Tn-2的1/3的时间长度。
当通过把前插值信号连接到后插值信号来生成源插值信号时,如前述噪声减小设备的第二示例中一样,能够进一步提高插值信号与该插值信号前面和后面的输入语音信号之间的连续性。存在输入语音信号的间距在噪声发生时段Tn之前和之后变化的可能。然而,尤其是在第三示例的间距对应插值信号生成处理中,可以处理噪声发生时段之前和之后的间距周期的变化。因此,可得到在听觉方面更自然的声音。
在第三示例中,存在如下优点:对于具有相同的持续时间的噪声发生时段Tn,与图22的第二示例的噪声前源信号区间Ts1相比,缩短了噪声前源信号区间Ts1和噪声后源信号区间Ts2。
7、噪声减小设备的示例性结构(第四示例)
图21是示出根据实施例的噪声减小设备的示例性结构(第四示例)的框图。
在图21中,对于与图14的第一示例中的部件相同的部件给予相同的标号并省略描述。由于不是基于输入语音信号而是基于在插值信号源生成器35中生成的插值信号源(使用语音信号)生成插值信号,所以图21中的结构与图14的第一示例中的结构相同。
在图21中,除了图14中的结构之外,还布置了间距计算器51和插值信号生成器35C。
在图21中,如图20中一样,噪声去除插值单元50包括:噪声去除滤波器33、加法器34、插值信号源生成器35、源插值信号生成器35C、插值滤波器36和间距计算器51。噪声识别信息从噪声时间生成处理器38输出到噪声去除插值单元50。
间距计算器51具有与图20示出的第三示例的噪声减小设备的结构相同的结构。间距计算器51计算来自放大器32的输入语音信号的间距,并把指示计算的间距的信息输出给源插值信号生成器35C。
源插值信号生成器35C输入插值信号源作为插值信号的生成源信号,并基于计算的输入语音信号的间距以下述方式生成源插值信号。
在第四示例的噪声减小设备中,可以执行与第一示例、第二示例和第三示例的处理中的任一处理相似的处理,作为间距对应插值信号生成处理。
当执行与第一示例和第二示例中的间距对应插值信号生成处理相似的处理时,间距计算器51被配置为执行与图22中的处理相同的处理。也就是说,使用除噪声发生时段Tn以外的噪声发生时段Tn之前和之后的输入语音信号中的任一个计算间距。当执行与第三示例中的间距对应插值信号生成处理相似的处理时,间距计算器51被配置为执行与图25中的处理相同的处理。
首先,将描述与第一示例中的间距对应插值信号生成处理相似的间距对应插值信号生成处理。
在这种情况下,源插值信号生成器35C从插值信号源的语音信号中获取具有噪声发生时段Tn的2/3倍的持续时间的语音信号。这对应于图22中设置噪声前源信号区间Ts1并提取噪声前源信号区间Ts1中的语音信号的处理。然而,插值信号源是连续生成并且不像输入语音信号那样混合有噪声的语音信号。因此,任意地确定从插值信号源中提取具有噪声发生时段Tn的2/3倍的持续时间的语音信号的时间。
源插值信号生成器35C把插值信号源生成为具有pitch/2周期的区间信号,通过与图23A和23B中描述的处理相同的处理生成仅具有噪声发生时段Tn的持续时间的源插值信号,然后把源插值信号输出给插值滤波器36。
当执行与第二示例中的间距对应插值信号生成处理相似的间距对应插值信号生成处理时,源插值信号生成器35C在任意时间从语音信号中提取具有噪声发生时段Tn的1/3的持续时间的语音信号作为插值信号源。
随后,源插值信号生成器35C把插值信号源分割成具有pitch/2周期的区间信号,通过与图24中的处理相同的处理生成仅具有噪声发生时段Tn的持续时间的源插值信号,然后把源插值信号输出给插值滤波器36。
当执行与第三示例中的间距对应插值信号生成处理相似的间距对应插值信号生成处理时,源插值信号生成器35C在任意时间从语音信号中提取具有前插值信号时段Tn-1的1/3的持续时间(其是与图25中的噪声前源信号区间Ts1的持续时间相同的持续时间)的语音信号作为插值信号源,然后把该语音信号设置为噪声前源信号。同样地,源插值信号生成器35C在任意时间从语音信号中提取具有后插值信号时段Tn-2的1/3的持续时间(其是与图25中的噪声后源信号区间Ts2的持续时间相同的持续时间)的语音信号作为插值信号源,然后把该语音信号设置为噪声后源信号。
随后,源插值信号生成器35C把噪声前源信号和噪声后源信号分割成具有pitch/2周期的区间信号,并按照与图26A至26C中的处理相同的处理生成源插值信号。
在第四示例的噪声减小设备中,例如,通过间距对应插值信号生成处理生成的源插值信号不被设置为输入语音信号,而是设置为插值信号源,即通过合成音调信号和M系列信号形成的语音信号。
然而,例如,与沿顺时间方向简单地连接插值信号源并生成源插值信号的情况相比,即使当利用与输入语音信号不同的信号执行插值时,通过根据以上处理生成源插值信号也能够获得在听觉方面更加自然的语音。这个事实已被发明人进行的实验所确认。
执行上述间距对应插值信号生成处理(第一示例到第三示例)的第三示例和第四示例的噪声减小设备(图20和图21)包括噪声去除滤波器33和插值滤波器36。因此,仅从噪声发生时段的输入语音信号中去除发生噪声的分割频率,保留没有噪声发生的分割频率以生成噪声去除信号,然后,通过仅由去除的分割频率形成的频带特性的插值信号来填充该噪声去除信号。因此,如上所述,噪声发生时段的输入语音信号的分量尽可能地保留。因此,提高了噪声发生时段之前和之后的时段的输入语音信号之间的连续性。
然而,在间距对应插值信号生成处理(第一到第三示例)中,在噪声发生时段内可去除输入语音信号的全部频带,作为替代可以内插具有与全部频带的频带特性相同的频带特性的插值信号。
即使当使用该噪声去除插值方法时,也通过图23A和23B、图24以及图26A至26C中示出的间距对应插值信号生成处理(第一示例到第三示例)生成插值信号。采用这种结构,实现每个pitch/2周期区间的波形之间的点连接。因此,通过抑制谐波的发生以及缩短或去除淡入淡出时段,能够有效地获得防止由于相位条件而导致电平降低的优点。
在根据实施例的各个示例的噪声减小设备的结构中,放大器32布置在麦克风31的后级的结构可通过硬件实现。作为另一选择,该结构可通过DSP(数字信号处理器)等来实现。也就是说,该结构可通过在作为DSP的硬件中执行的程序(指令)来实现。作为另一选择,该结构可实现为由CPU(中央处理单元)执行的程序。作为另一选择,可选择性地组合硬件、DSP和CPU的程序中的至少两种。
程序例如可存储在由噪声减小设备的ROM、HDD或闪存构成的辅助存储单元中,或者例如可存储在可移动存储介质中。作为另一选择,例如,存储在网络上的服务器中的程序可经由网络下载,从而用户能够获取该程序。
根据实施例的各示例中的噪声减小设备的示例包括:摄像机、具有记录功能的数字静止照相机、蜂窝电话、IC记录器、包括麦克风并在存储介质中记录接收的语音的记录再现设备。在这种设备中,需要从由麦克风接收的语音中近于实时地去除噪声并记录语音。然而,根据这个实施例的噪声减小设备的结构在实时地确定并去除噪声时是有效的。
然而,例如,由根据这个实施例的噪声减小设备输入的包含噪声的语音源包括由麦克风接收的语音和通过读取记录在记录介质中的语音获得的语音信号。然而,不存在任何问题。也就是说,输入语音信号以获得输入语音信号的方法不限于包括麦克风的语音输入系统。
本申请包含与2009年4月13日提交到日本专利局的日本在先专利申请JP2009-097190中所公开的主题相同的主题,通过引用将其全部内容包含于此。
本领域技术人员应该理解,可以根据设计要求和其它因素进行各种修改、组合、子组合和替换,只要它们在权利要求或其等同物的范围内即可。
Claims (16)
1.一种噪声减小设备,包括:
语音信号输入装置,用于输入语音信号以获取输入语音信号;
噪声发生时段检测装置,用于检测输入语音信号的噪声发生时段;
噪声去除装置,用于从输入语音信号中去除在噪声发生时段内发生的噪声;
生成源信号获取装置,用于从用于生成插值信号的使用语音信号中获取生成源信号,该生成源信号的持续时间被确定为对应于与噪声发生时段对应的持续时间;
间距计算装置,用于计算由语音信号输入装置输入的输入语音信号中的在噪声发生时段附近的输入语音信号区间的间距;
区间信号设置装置,用于从所述生成源信号设置在基于由间距计算装置计算的间距而设置的各单位周期区间中分割的区间信号;
插值信号生成装置,用于基于通过连接相同单位周期区间的区间信号而形成的单位插值信号部分在时间轴上的排列,生成具有与噪声发生时段对应的持续时间的插值信号,并且用于至少在所述单位插值信号部分中交替地排列沿顺时间方向的区间信号和沿逆时间方向的区间信号;以及
合成装置,用于合成所述插值信号和由噪声去除装置去除了噪声的输入语音信号并输出。
2.如权利要求1所述的噪声减小设备,其中,生成源信号获取装置
获取由前生成源信号和连接到前生成源信号后面的后生成源信号形成的生成源信号,
从除噪声发生时段以外的、噪声发生时段之前的时段内的使用语音信号获取所述前生成源信号,并且
从除噪声发生时段以外的、噪声发生时段之后的时段内的使用语音信号获取所述后生成源信号,
其中,插值信号生成装置
基于针对所述前生成源信号设置的区间信号,生成具有与噪声发生时段的前时段对应的持续时间的前插值信号,
基于针对所述后生成源信号设置的区间信号,生成具有与噪声发生时段的后时段对应的持续时间的后插值信号,并且
通过顺序地把前插值信号和后插值信号彼此连接而生成所述插值信号。
3.如权利要求2所述的噪声减小设备,还包括:
峰值检测装置,用于检测噪声发生时段内的噪声的峰值,
其中,插值信号生成装置把噪声发生时段的前时段设置为从噪声发生时段的开始时间到由峰值检测装置检测的噪声的峰值时间的时段,并把噪声发生时段的后时段设置为从由峰值检测装置检测的噪声的峰值时间到噪声发生时段的结束时间的时段。
4.如权利要求2或3所述的噪声减小设备,其中,插值信号生成装置在前插值信号的最后单位插值信号部分和后插值信号的最初单位插值信号部分之间形成连接部分,
其中,在所述连接部分中,插值信号生成装置
从前生成源信号获取第一合成区间信号,该第一合成区间信号的振幅波形连接到所述最后单位插值信号部分的最后区间信号的振幅波形,
从后生成源信号获取第二合成区间信号,该第二合成区间信号的振幅波形连接到所述最初单位插值信号部分的最初区间信号的振幅波形,并且
合成第一区间信号和第二区间信号以使第一合成区间信号逐渐减小并且使第二合成区间信号逐渐增大。
5.如权利要求1所述的噪声减小设备,其中,生成源信号获取装置从除噪声发生时段以外的、噪声发生时段之前或之后的时段内的使用语音信号获取生成源信号。
6.如权利要求1至5中任一项所述的噪声减小设备,其中,当插值信号部分由偶数个区间信号形成时,单位插值信号部分按生成源的区间信号的时间顺序排列,
其中,单位插值信号部分的最后区间信号的时段与下一个单位插值信号部分的最初区间信号的时段交叠,并且在交叠时段中执行合成以使在该交叠时段中与所述最后单位周期区间对应的区间信号逐渐减小并且与所述最初单位周期区间对应的区间信号逐渐增大。
7.如权利要求1至6中任一项所述的噪声减小设备,其中,当插值信号部分由奇数个区间信号形成时,通过按生成源的区间信号的时间顺序连接所述单位插值信号部分来生成所述插值信号。
8.如权利要求1至7中任一项所述的噪声减小设备,其中,生成源信号获取装置基于用于形成单位插值信号部分的区间信号的数量和与噪声发生时段对应的持续时间,计算生成源信号的持续时间或前生成源信号和后生成源信号的持续时间。
9.如权利要求1至8中任一项所述的噪声减小设备,其中,间距计算装置计算在除噪声发生时段以外的、噪声发生时段之前或之后的时段内的所述输入语音信号区间的间距。
10.如权利要求1至9中任一项所述的噪声减小设备,其中,生成源信号获取装置输入所述输入语音信号作为所述使用语音信号。
11.如权利要求1至9中任一项所述的噪声减小设备,还包括:
插值信号源生成装置,用于生成用作不基于所述输入语音信号的输入的语音信号的插值信号源,以输出该插值信号源作为所述使用语音信号。
12.如权利要求1至11中任一项所述的噪声减小设备,还包括:
噪声发生频率检测装置,用于检测所述输入语音信号中发生噪声的频率,
其中,噪声去除装置设置仅阻挡发生噪声的频率的带通特性,
其中,插值信号生成装置设置仅使发生噪声的频率通过的带通特性。
13.如权利要求1至12中任一项所述的噪声减小设备,还包括:
开关装置,用于输入从合成装置输出的语音信号和所述输入语音信号,在噪声发生时段输出从合成装置输出的语音信号,并且在除噪声发生时段以外的时段输出所述输入语音信号。
14.如权利要求13所述的噪声减小设备,其中,开关装置执行淡入淡出处理,以使得在噪声发生时段的开始时段内从合成装置输出的语音信号的电平逐渐增大并且所述输入语音信号的电平逐渐减小,并且使得在噪声发生时段的结束时段内从合成装置输出的语音信号的电平逐渐减小并且所述输入语音信号的电平逐渐增大。
15.一种噪声减小方法,包括下述步骤:
将输入语音信号输入;
检测输入语音信号的噪声发生时段;
从输入语音信号中去除在噪声发生时段内发生的噪声;
从用于生成插值信号的使用语音信号中获取生成源信号,该生成源信号的持续时间被确定为对应于与噪声发生时段对应的持续时间;
计算在语音信号的输入步骤中输入的输入语音信号中的在噪声发生时段附近的输入语音信号区间的间距;
从所述生成源信号设置在基于在计算间距的步骤中计算的间距而设置的各单位周期区间中分割的区间信号;
基于通过连接相同单位周期区间的区间信号而形成的单位插值信号部分在时间轴上的排列,生成具有与噪声发生时段对应的持续时间的插值信号,并且至少在所述单位插值信号部分中交替地排列沿顺时间方向的区间信号和沿逆时间方向的区间信号;以及
合成所述插值信号和在去除噪声的步骤中去除了噪声的输入语音信号并输出。
16.一种噪声减小设备,包括:
语音信号输入单元,用于输入语音信号以获取输入语音信号;
噪声发生时段检测单元,用于检测输入语音信号的噪声发生时段;
噪声去除单元,用于从输入语音信号中去除在噪声发生时段内发生的噪声;
生成源信号获取单元,用于从用于生成插值信号的使用语音信号中获取生成源信号,该生成源信号的持续时间被确定为对应于与噪声发生时段对应的持续时间;
间距计算单元,用于计算由语音信号输入单元输入的输入语音信号中的在噪声发生时段附近的输入语音信号区间的间距;
区间信号设置单元,用于从所述生成源信号设置在基于由间距计算单元计算的间距而设置的各单位周期区间中分割的区间信号;
插值信号生成单元,用于基于通过连接相同单位周期区间的区间信号而形成的单位插值信号部分在时间轴上的排列,生成具有与噪声发生时段对应的持续时间的插值信号,并且用于至少在所述单位插值信号部分中交替地排列沿顺时间方向的区间信号和沿逆时间方向的区间信号;以及
合成单元,用于合成所述插值信号和由噪声去除单元去除了噪声的输入语音信号并输出。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009097190A JP2010249940A (ja) | 2009-04-13 | 2009-04-13 | ノイズ低減装置、ノイズ低減方法 |
JP2009-097190 | 2009-04-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101859583A true CN101859583A (zh) | 2010-10-13 |
CN101859583B CN101859583B (zh) | 2012-04-25 |
Family
ID=42934427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101545534A Expired - Fee Related CN101859583B (zh) | 2009-04-13 | 2010-04-02 | 噪声减小设备和噪声减小方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8331583B2 (zh) |
JP (1) | JP2010249940A (zh) |
CN (1) | CN101859583B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079822A (zh) * | 2013-03-29 | 2014-10-01 | 佳能株式会社 | 摄像装置、信号处理装置及方法 |
CN107966910A (zh) * | 2017-11-30 | 2018-04-27 | 深圳Tcl新技术有限公司 | 语音处理方法、智能音箱及可读存储介质 |
CN108154880A (zh) * | 2016-12-05 | 2018-06-12 | 广东大仓机器人科技有限公司 | 能实时分辨环境噪音进行语音识别的机器人 |
CN115171713A (zh) * | 2022-06-30 | 2022-10-11 | 歌尔科技有限公司 | 语音降噪方法、装置、设备及计算机可读存储介质 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010249939A (ja) * | 2009-04-13 | 2010-11-04 | Sony Corp | ノイズ低減装置、ノイズ判定方法 |
US8423357B2 (en) * | 2010-06-18 | 2013-04-16 | Alon Konchitsky | System and method for biometric acoustic noise reduction |
JP5656586B2 (ja) * | 2010-11-26 | 2015-01-21 | キヤノン株式会社 | 撮像装置とその制御方法並びに音声処理装置及び方法 |
JP2012203040A (ja) * | 2011-03-23 | 2012-10-22 | Canon Inc | 音声信号処理装置、及びその制御方法 |
US20130064423A1 (en) * | 2011-09-09 | 2013-03-14 | Sony Corporation | Feature extraction and processing from signals of sensor arrays |
JP2015122726A (ja) * | 2013-11-25 | 2015-07-02 | 株式会社リコー | 画像処理装置、画像処理方法及び画像処理プログラム |
JP6050739B2 (ja) * | 2013-11-27 | 2016-12-21 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置及び画像処理方法 |
JP6292911B2 (ja) * | 2014-02-07 | 2018-03-14 | キヤノン株式会社 | 画像処理方法、画像処理プログラムおよび画像処理装置 |
JP6206271B2 (ja) * | 2014-03-17 | 2017-10-04 | 株式会社Jvcケンウッド | 雑音低減装置、雑音低減方法及び雑音低減プログラム |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
DE102015216758A1 (de) * | 2015-09-02 | 2017-03-16 | Rohde & Schwarz Gmbh & Co. Kg | Verfahren und Messgerät zum Ermitteln von Signalparametern |
JP6559576B2 (ja) * | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
US10365763B2 (en) * | 2016-04-13 | 2019-07-30 | Microsoft Technology Licensing, Llc | Selective attenuation of sound for display devices |
JP6669277B2 (ja) * | 2016-12-20 | 2020-03-18 | 三菱電機株式会社 | 音声ノイズ検出装置、デジタル放送受信装置、及び音声ノイズ検出方法 |
JP2018118621A (ja) * | 2017-01-25 | 2018-08-02 | パナソニックIpマネジメント株式会社 | 能動騒音低減装置、車両、及び、異常判定方法 |
JP7160264B2 (ja) * | 2020-07-22 | 2022-10-25 | 2nd Community株式会社 | 音データ処理装置、音データ処理方法及び音データ処理プログラム |
CN118918891B (zh) * | 2024-07-11 | 2025-03-18 | 嘉兴市欧德家居股份有限公司 | 一种基于声音识别的浴霸开关控制方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1051311A (ja) * | 1996-07-31 | 1998-02-20 | Sony Corp | ディジタル信号処理装置、記録装置及び再生装置 |
CN1204124A (zh) * | 1997-06-26 | 1999-01-06 | 德国汤姆逊-布朗特公司 | 抑制模拟音频/视频信号脉冲干扰的方法、装置和记录设备 |
US20070078649A1 (en) * | 2003-02-21 | 2007-04-05 | Hetherington Phillip A | Signature noise removal |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02235266A (ja) * | 1989-03-07 | 1990-09-18 | Matsushita Electric Ind Co Ltd | データ補正装置 |
DE69124005T2 (de) * | 1990-05-28 | 1997-07-31 | Matsushita Electric Ind Co Ltd | Sprachsignalverarbeitungsvorrichtung |
JPH0772897A (ja) * | 1993-09-01 | 1995-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法および装置 |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
US6523003B1 (en) * | 2000-03-28 | 2003-02-18 | Tellabs Operations, Inc. | Spectrally interdependent gain adjustment techniques |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP3871657B2 (ja) * | 2003-05-27 | 2007-01-24 | 株式会社東芝 | 話速変換装置、方法、及びそのプログラム |
JP4476654B2 (ja) * | 2004-03-17 | 2010-06-09 | 旭化成株式会社 | 音声合成装置、音声合成方法及び音声合成装置制御プログラム |
JP4218573B2 (ja) * | 2004-04-12 | 2009-02-04 | ソニー株式会社 | ノイズ低減方法及び装置 |
JP2007150737A (ja) * | 2005-11-28 | 2007-06-14 | Sony Corp | 音声信号ノイズ低減装置及び方法 |
JP2007316254A (ja) * | 2006-05-24 | 2007-12-06 | Sony Corp | オーディオ信号補間方法及びオーディオ信号補間装置 |
JP2008052772A (ja) | 2006-08-22 | 2008-03-06 | Sony Corp | 記録装置、ノイズ除去方法、ノイズ除去装置 |
JP2008052771A (ja) * | 2006-08-22 | 2008-03-06 | Sony Corp | 記録装置、ノイズ除去制御方法、ノイズ除去制御装置 |
JP4826402B2 (ja) | 2006-09-12 | 2011-11-30 | ソニー株式会社 | 記録装置、ノイズ除去方法、ノイズ除去装置 |
JP2008077707A (ja) | 2006-09-19 | 2008-04-03 | Sony Corp | 記録装置、ノイズ除去方法、ノイズ除去装置 |
JP5056157B2 (ja) * | 2007-05-18 | 2012-10-24 | ソニー株式会社 | ノイズ低減回路 |
-
2009
- 2009-04-13 JP JP2009097190A patent/JP2010249940A/ja active Pending
-
2010
- 2010-02-18 US US12/707,906 patent/US8331583B2/en not_active Expired - Fee Related
- 2010-04-02 CN CN2010101545534A patent/CN101859583B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1051311A (ja) * | 1996-07-31 | 1998-02-20 | Sony Corp | ディジタル信号処理装置、記録装置及び再生装置 |
CN1204124A (zh) * | 1997-06-26 | 1999-01-06 | 德国汤姆逊-布朗特公司 | 抑制模拟音频/视频信号脉冲干扰的方法、装置和记录设备 |
US20070078649A1 (en) * | 2003-02-21 | 2007-04-05 | Hetherington Phillip A | Signature noise removal |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079822A (zh) * | 2013-03-29 | 2014-10-01 | 佳能株式会社 | 摄像装置、信号处理装置及方法 |
CN104079822B (zh) * | 2013-03-29 | 2017-07-11 | 佳能株式会社 | 摄像装置、信号处理装置及方法 |
CN108154880A (zh) * | 2016-12-05 | 2018-06-12 | 广东大仓机器人科技有限公司 | 能实时分辨环境噪音进行语音识别的机器人 |
CN107966910A (zh) * | 2017-11-30 | 2018-04-27 | 深圳Tcl新技术有限公司 | 语音处理方法、智能音箱及可读存储介质 |
CN115171713A (zh) * | 2022-06-30 | 2022-10-11 | 歌尔科技有限公司 | 语音降噪方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US8331583B2 (en) | 2012-12-11 |
CN101859583B (zh) | 2012-04-25 |
US20100260354A1 (en) | 2010-10-14 |
JP2010249940A (ja) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101859583B (zh) | 噪声减小设备和噪声减小方法 | |
CN101877237B (zh) | 降噪装置和噪声确定方法 | |
US11657798B2 (en) | Methods and apparatus to segment audio and determine audio segment similarities | |
KR20030024784A (ko) | 디지털 오디오 신호들의 연속적인 가변 시간축 변환 | |
JP2005535915A (ja) | 可変長さ合成と相関度計算減縮技法を利用したオーディオ信号の時間スケール修正方法 | |
CN109471171B (zh) | 一种混叠地震数据分离的方法、装置及系统 | |
JP5845934B2 (ja) | 非同期サンプリング周波数変換装置、変換方法、及び、プログラム | |
US20110167989A1 (en) | Method and apparatus for detecting pitch period of input signal | |
KR20070096920A (ko) | 비디오 프레임의 렌더링 지속시간 결정 장치 및 방법 | |
EP2881944A1 (en) | Audio signal processing apparatus | |
US20010013270A1 (en) | Pitch shifter | |
JP4679640B2 (ja) | 最尤復号装置及び情報再生装置 | |
JPH0315758B2 (zh) | ||
JP5395399B2 (ja) | 携帯端末、拍位置推定方法および拍位置推定プログラム | |
CN102782750A (zh) | 兴趣区间抽取装置、兴趣区间抽取方法 | |
US5111505A (en) | System and method for reducing distortion in voice synthesis through improved interpolation | |
CN111179970B (zh) | 音视频处理方法、合成方法、装置、电子设备及存储介质 | |
KR100236686B1 (ko) | 데이터 샘플열 액세스 장치 | |
US7194021B2 (en) | Digital matched filter | |
CN113782050B (zh) | 声音变调方法、电子设备及存储介质 | |
US20070055397A1 (en) | Constant pitch variable speed audio decoding | |
CN103137138A (zh) | 一种音频重复插入的检测方法 | |
JP3007256B2 (ja) | 速度可変データ入力制御装置 | |
Savvaidis et al. | Implementation of additional seismological software for the determination of earthquake parameters based on MatSeis and an automatic phase-detector algorithm | |
JPS5816522B2 (ja) | トレ−シング歪補正用の遅延変調回路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120425 Termination date: 20140402 |