JP2013047710A - Sound signal processing apparatus, imaging apparatus, sound signal processing method, program, and recording medium - Google Patents
Sound signal processing apparatus, imaging apparatus, sound signal processing method, program, and recording medium Download PDFInfo
- Publication number
- JP2013047710A JP2013047710A JP2011185553A JP2011185553A JP2013047710A JP 2013047710 A JP2013047710 A JP 2013047710A JP 2011185553 A JP2011185553 A JP 2011185553A JP 2011185553 A JP2011185553 A JP 2011185553A JP 2013047710 A JP2013047710 A JP 2013047710A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- interpolation
- audio signal
- noise
- buffer memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 649
- 238000012545 processing Methods 0.000 title claims abstract description 242
- 238000003384 imaging method Methods 0.000 title claims description 42
- 238000003672 processing method Methods 0.000 title claims description 25
- 230000015654 memory Effects 0.000 claims abstract description 423
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims description 57
- 238000000034 method Methods 0.000 description 122
- 230000009467 reduction Effects 0.000 description 62
- 230000008569 process Effects 0.000 description 57
- 238000010586 diagram Methods 0.000 description 28
- 230000003287 optical effect Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000000737 periodic effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000989 no adverse effect Toxicity 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
Abstract
Description
本開示は、音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体に関する。 The present disclosure relates to an audio signal processing device, an imaging device, an audio signal processing method, a program, and a recording medium.
外部音声を収音して記録する音声記録装置として、ビデオカメラや、動画撮像機能付きのデジタルカメラ、ICレコーダ等が知られている。これら装置を動作させるときには、装置本体から発生するパルス状の作動音が、記録音声に混入してしまう場合がある。 Video cameras, digital cameras with a moving image capturing function, IC recorders, and the like are known as audio recording devices that collect and record external audio. When these devices are operated, there are cases where pulsed operating sound generated from the device main body is mixed into the recorded sound.
例えば、動画撮像機能を備えた撮像装置は、動画撮像中にマイクロホンにより装置周辺の外部音声を収音し、当該音声を動画とともに記録する。かかる動画撮像時には、撮像装置に筐体内で、ズーム駆動音、絞り駆動音、オートフォーカス駆動音、操作ボタンの押下音などのパルス状の作動音が発生する。特に、撮像光学系を駆動させる駆動装置(ズームモータ、絞り機構、フォーカスモータ等)の動作開始時又は終了時には、例えば、モータとギアが噛み合うときの「カチッ」というパルス状の機械駆動音が発生する。 For example, an imaging apparatus having a moving image capturing function picks up external sound around the apparatus with a microphone during moving image capturing, and records the sound together with the moving image. At the time of capturing a moving image, a pulsed operation sound such as a zoom drive sound, an aperture drive sound, an autofocus drive sound, and an operation button pressing sound is generated in the housing of the image pickup apparatus. In particular, at the start or end of operation of a drive device (zoom motor, aperture mechanism, focus motor, etc.) that drives the imaging optical system, for example, a pulsing mechanical drive sound is generated when the motor and gear mesh. To do.
かかるパルス状の作動音は、ユーザが録音を所望する外部音声に雑音として混入・記録されてしまうと、非常に耳障りである。このため、音声記録装置では、記録時にパルス状の作動音を低減するための静音対策や雑音除去対策が必要となる。 Such a pulsed operation sound is very annoying if it is mixed and recorded as noise in the external sound that the user desires to record. For this reason, in the audio recording apparatus, it is necessary to take countermeasures against silence and noise elimination to reduce the pulsed operating sound during recording.
パルス状の機械駆動音を低減する方法として、これまでもいくつかの方法が提案されている。例えば、特許文献1には、レンズ駆動部で生じた雑音を含む雑音区間の入力音声信号を、当該雑音区間の前後の区間の音声信号で補間することが提案されている。
Several methods have been proposed so far for reducing the pulse-like mechanical drive sound. For example,
上記特許文献記載の雑音低減方法は、雑音区間の前後の区間の音声信号を用いて録音を所望する背景音の音声信号を推定し、その推定した信号を用いて雑音区間の信号を補間することによって、雑音を低減した音声信号を得る。しかしながら、この雑音低減方法では、雑音区間の前後の一定区間の信号を用いる必要があるため、その全ての区間分の信号を保持するための長いバッファメモリが必要となる。さらに、録音時に雑音低減処理を実行すると、当該長いバッファメモリに保持するために、入力音声に対して出力音声が大きく遅延してしまう。このため、遅延した音声に映像や制御クロック等を同期させることとなり、他の映像記録部や制御部などといったカメラシステム全体の遅延が懸念される。 The noise reduction method described in the above-mentioned patent document estimates a sound signal of a background sound desired to be recorded using sound signals in a section before and after the noise section, and interpolates a signal in the noise section using the estimated signal. Thus, an audio signal with reduced noise is obtained. However, in this noise reduction method, it is necessary to use signals in a certain interval before and after the noise interval, and thus a long buffer memory is required to hold signals for all the intervals. Further, when noise reduction processing is performed during recording, the output sound is greatly delayed with respect to the input sound because the long buffer memory holds the noise. For this reason, the video and the control clock are synchronized with the delayed audio, and there is a concern about the delay of the entire camera system such as another video recording unit or the control unit.
例えば、図1は、パルス状の機械駆動音を雑音として含む音声信号を録音する際に、上記特許文献1記載の雑音低減方法により、雑音区間の前後の区間の背景音のデータを用いて雑音区間を補間する場合を示す説明図である。この場合、雑音区間長をNとすると、雑音区間及びその前後の区間の音声信号の全てを保持するためには、概ね3*Nの長さのバッファメモリが必要となる。また、これら区間の音声信号の全てがバッファメモリに保存された後に補間信号を生成し、当該補間信号を用いて雑音区間を補間する方法を用いると、音声信号が入力されてから出力されるまでの間に、少なくとも2*Nの遅延が発生する。
For example, FIG. 1 shows that when recording an audio signal including a pulsed mechanical drive sound as noise, the noise reduction method described in the above-mentioned
以上のように、雑音低減のための補間処理では、雑音区間の近辺の信号を用いて補間信号を推定する必要がある。この際、精度の高い推定を行うためには、従来では、雑音前後のある程度長い区間の音声信号を保持可能なバッファメモリを確保する必要があった。このため、補間信号の推定に必要なバッファメモリが増大するだけでなく、入力音声に対して出力音声が大きく遅延するため、映像記録や制御等のカメラシステム全体の遅延が発生するという問題があった。 As described above, in the interpolation processing for noise reduction, it is necessary to estimate an interpolation signal using a signal in the vicinity of the noise section. At this time, in order to perform highly accurate estimation, it has conventionally been necessary to secure a buffer memory capable of holding a sound signal of a certain long section before and after noise. For this reason, there is a problem that not only the buffer memory necessary for estimating the interpolation signal is increased, but also the output sound is greatly delayed with respect to the input sound, which causes a delay of the entire camera system such as video recording and control. It was.
そこで、上記事情に鑑みれば、雑音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減することが可能な雑音低減方法が求められていた。 Therefore, in view of the above circumstances, the buffer memory length necessary for estimating the interpolation signal from the signal in the vicinity of the noise interval can be reduced, and the delay of the output sound with respect to the input sound accompanying the interpolation process can be reduced. There has been a need for a noise reduction method.
本開示によれば、入力された音声信号を所定区間ごとに一時保存する第1のバッファメモリと、前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、を備える、音声信号処理装置が提供される。 According to the present disclosure, a first buffer memory that temporarily stores an input audio signal for each predetermined interval, and an audio signal that is one before the nth interval audio signal that is stored in the first buffer memory. a second buffer memory for temporarily storing the audio signal of the (n-1) -th section, and at least the second buffer memory when it is detected that noise is included in the audio signal of the n-th section An interpolated signal generating unit that generates an interpolated signal from the n-1th section audio signal, and a signal interpolating unit that interpolates the nth section audio signal including the noise using the interpolated signal. An audio signal processing device is provided.
また、本開示によれば、外部音声を音声信号に変換する収音部と、前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第1のバッファメモリと、前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、を備える、撮像装置が提供される。 Further, according to the present disclosure, a sound collection unit that converts external sound into an audio signal, a sound generation unit that is provided in the same casing as the sound collection unit, and generates noise, and input from the sound collection unit A first buffer memory that temporarily stores the audio signal for each predetermined interval, and an audio of the (n-1) th interval that is one previous to the audio signal of the nth interval that is stored in the first buffer memory A second buffer memory for temporarily storing a signal, and the n−1th buffer stored in at least the second buffer memory when it is detected that the audio signal in the nth section includes noise An imaging apparatus comprising: an interpolation signal generation unit that generates an interpolation signal from the audio signal in the interval; and a signal interpolation unit that interpolates the audio signal in the n-th interval including the noise using the interpolation signal. Provided.
また、本開示によれば、第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、を含む、音声信号処理方法が提供される。 In addition, according to the present disclosure, the audio signal of the (n−1) th section stored in the first buffer memory is temporarily stored in the second buffer memory, and the input audio signal of the nth section is stored. Is temporarily stored in the first buffer memory, and at least the second is detected when it is detected that the nth section audio signal stored in the first buffer memory contains noise. Generating an interpolated signal from the audio signal of the (n-1) -th section stored in the buffer memory of the first, and interpolating the audio signal of the n-th section including the noise using the interpolated signal. An audio signal processing method is provided.
また、本開示によれば、第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、をコンピュータに実行させるためのプログラムが提供される。 In addition, according to the present disclosure, the audio signal of the (n−1) th section stored in the first buffer memory is temporarily stored in the second buffer memory, and the input audio signal of the nth section is stored. Is temporarily stored in the first buffer memory, and at least the second is detected when it is detected that the nth section audio signal stored in the first buffer memory contains noise. Generating an interpolated signal from the audio signal of the (n-1) -th section stored in the buffer memory of the first, and interpolating the audio signal of the n-th section including the noise using the interpolated signal. A program for causing a computer to execute is provided.
また、本開示によれば、第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体が提供される。 In addition, according to the present disclosure, the audio signal of the (n−1) th section stored in the first buffer memory is temporarily stored in the second buffer memory, and the input audio signal of the nth section is stored. Is temporarily stored in the first buffer memory, and at least the second is detected when it is detected that the nth section audio signal stored in the first buffer memory contains noise. Generating an interpolated signal from the audio signal of the (n-1) -th section stored in the buffer memory of the first, and interpolating the audio signal of the n-th section including the noise using the interpolated signal. And a computer-readable recording medium on which a program for causing the computer to execute is recorded.
上記構成により、入力されるn番目の区間の音声信号が第1のバッファメモリに保存完了し、かつ、第1のバッファメモリに保存されているn番目の区間の音声信号に雑音が含まれることが検出されたときに直ちに、第2のバッファメモリに保存されているn−1番目の区間の音声信号から補間信号が生成され、当該補間信号を用いてn番目の区間の音声信号が補間され、補間後のn番目の区間の音声信号が出力される。これにより、2つのバッファメモリを用いて、所定区間ごとの音声信号の入出力処理と、音声信号に含まれる雑音の補間処理とを、少ない遅延量で好適に実現できる。 With the above configuration, the input audio signal in the nth section is completely stored in the first buffer memory, and the nth section audio signal stored in the first buffer memory includes noise. As soon as is detected, an interpolated signal is generated from the audio signal of the (n-1) th section stored in the second buffer memory, and the audio signal of the nth section is interpolated using the interpolated signal. The audio signal of the nth section after interpolation is output. As a result, the input / output processing of the audio signal for each predetermined section and the interpolation processing of the noise included in the audio signal can be suitably realized with a small delay amount using the two buffer memories.
以上説明したように本開示によれば、雑音区間の近辺の信号から補間信号を推定するために必要なバッファメモリ長を減少できるとともに、補間処理に伴う入力音声に対する出力音声の遅延も低減することができる。 As described above, according to the present disclosure, it is possible to reduce the buffer memory length necessary for estimating the interpolation signal from the signal in the vicinity of the noise interval, and to reduce the delay of the output sound with respect to the input sound accompanying the interpolation process. Can do.
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Hereinafter, preferred embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
なお、説明は以下の順序で行うものとする。
1.第1の実施の形態
1.1.機械音低減方法の概要
1.2.音声信号処理装置の構成
1.2.1.音声信号処理装置のハードウェア構成
1.2.2.音声信号処理装置の機能構成
1.3.音声信号処理装置の動作
1.3.1.雑音がない通常時の動作例
1.3.2.雑音発生時の動作例
1.4.音声信号処理方法
1.5.効果
2.第2の実施の形態
2.1.機械音低減方法の概要
2.2.音声信号処理装置の機能構成
2.3.音声信号処理装置の動作
2.3.1.雑音がない通常時の動作例
2.3.2.雑音発生時の動作例
2.4.音声信号処理方法
2.5.効果
3.第3の実施の形態
3.1.機械音低減方法の概要
3.2.音声信号処理装置の機能構成
3.3.音声信号処理装置の動作
3.3.1.雑音発生時の第1動作例
3.3.2.雑音発生時の第1動作例
3.4.音声信号処理方法
3.5.効果
The description will be made in the following order.
1. 1. First embodiment 1.1. Outline of mechanical sound reduction method 1.2. Configuration of audio signal processing apparatus 1.2.1. Hardware configuration of audio signal processing apparatus 1.2.2. Functional configuration of audio signal processing apparatus 1.3. Operation of audio signal processing apparatus 1.3.1. Example of normal operation without noise 1.3.2. Example of operation when noise occurs 1.4. Audio signal processing method 1.5.
<1.第1の実施の形態>
[1.1.機械音低減方法の概要]
まず、本開示の第1の実施形態に係る音声信号処理装置及び方法を用いた機械音低減方法の概要について説明する。
<1. First Embodiment>
[1.1. Outline of mechanical noise reduction method]
First, an outline of a mechanical sound reduction method using the audio signal processing device and method according to the first embodiment of the present disclosure will be described.
本実施形態に係る音声信号処理装置及び方法は、音声記録装置又は音声再生装置において、例えば、当該装置の筐体内に設置された発音部(例えば駆動装置)から発生するパルス状の作動音(雑音)を低減する技術に関する。特に、本実施形態では、動画撮像機能を有する撮像装置において、動画を撮像しながら周辺音声を録音するときに、撮像装置に内蔵された駆動装置の動作開始時或いは動作終了時に発生するパルス状の機械駆動音を低減対象とする。 The audio signal processing apparatus and method according to the present embodiment are, for example, a pulsed operation sound (noise) generated from a sounding unit (for example, a driving device) installed in a casing of the audio recording apparatus or audio reproduction apparatus. ). In particular, in the present embodiment, in an imaging apparatus having a moving image capturing function, when recording peripheral sounds while capturing a moving image, a pulse-like generated at the start or end of the operation of a drive device built in the imaging apparatus Reduces mechanical drive noise.
ここで、駆動装置は、撮像光学系を用いた撮像動作を行うために撮像装置に内蔵された駆動装置であり、例えば、ズームレンズを移動させるズームモータや、フォーカスレンズを移動させるフォーカスモータ、絞り機構又はシャッターを制御する駆動機構などを含む。これら駆動装置は、撮像装置の収音部と同一の筐体内に設けられる。また、パルス状の機械駆動音(以下、「パルス機械音」という。)は、例えば、上記各種の駆動装置が動作開始又は動作終了するときに発生する瞬間的な雑音(例えば、ズームモータの駆動音、フォーカスモータの駆動音、絞り機構の駆動音、シャッター音、操作ボタンの押下音など)である。例えば、パルス機械音は、ズームモータ等の動作開始時又は動作終了時に、モータとギアが噛み合うことにより発生する「カチッ」又は「パチッ」という音などである。 Here, the driving device is a driving device built in the imaging device to perform an imaging operation using the imaging optical system. For example, a zoom motor that moves the zoom lens, a focus motor that moves the focus lens, an aperture A drive mechanism for controlling the mechanism or the shutter is included. These driving devices are provided in the same housing as the sound collection unit of the imaging device. The pulse-like mechanical driving sound (hereinafter referred to as “pulse mechanical sound”) is, for example, instantaneous noise (for example, driving of a zoom motor) generated when the various driving devices start or end the operation. Sound, focus motor drive sound, aperture mechanism drive sound, shutter sound, operation button press sound, and the like. For example, the pulse mechanical sound is a “click” or “click” sound generated when the motor and the gear mesh when the operation of the zoom motor or the like starts or ends.
以下では、音声信号処理装置が、動画撮像機能を有するデジタルカメラであり、除去対象雑音であるパルス機械音が、該デジタルカメラにおける光学ズーム動作開始時に発生するズーム開始音である例について説明する。しかし、本開示の音声信号処理装置や、パルス機械音は、かかる例に限定されない。また、本開示の対象とする雑音も、パルス状の作動音に限定されず、音声信号処理装置に入力される音声のうち、録音を所望する背景音に混入する任意の種類・特性の雑音に適用可能である。 Hereinafter, an example will be described in which the audio signal processing device is a digital camera having a moving image capturing function, and the pulse mechanical sound that is the noise to be removed is a zoom start sound generated at the start of the optical zoom operation in the digital camera. However, the audio signal processing device and the pulse mechanical sound of the present disclosure are not limited to such examples. In addition, the noise targeted by the present disclosure is not limited to the pulsed operation sound, but is any type / characteristic noise mixed in the background sound desired to be recorded out of the sound input to the sound signal processing apparatus. Applicable.
デジタルカメラによる撮像及び録音中に、ユーザがズーム操作を行うと、該カメラの内部でズームモータが駆動して、ズームレンズを駆動させるギアと係合して、瞬間的に大きいパルス機械音(ズーム開始音)が発生する。すると、デジタルカメラのマイクロホンは、ユーザが録音を所望するカメラ周囲の外部音声(例えば、環境音、人の話し声など、マイクロホンに収音される任意の音声を含む。以下「所望音」又は「背景音」という。)のみならず、カメラ内部で発生したパルス機械音も収音してしまう。このため、所望音にパルス機械音が雑音として混入した状態で録音されてしまうので、当該録音された音声を再生したときに、所望音に混入したパルス機械音がユーザにとって耳障りとなる。例えば、パルス機械音は200Hz以下の筐体の振動を伴い、マイクロホン近傍で発生するため、所望音に比べて大きな音量で収音される。このようにパルス機械音と所望音で音量差があるため、所望音に機械音が混入していると、録音音声の再生時にパルス機械音が目立ってしまう。従って、動画及び音声の記録時又は再生時に、上記ズーム開始音等のパルス機械音を適切に除去した上で所望音のみを記録可能な技術が希求されていた。 When a user performs a zoom operation during imaging and recording by a digital camera, a zoom motor is driven inside the camera and engaged with a gear for driving a zoom lens, and instantaneously a pulse mechanical sound (zoom) (Starting sound) occurs. Then, the microphone of the digital camera includes any sound collected by the microphone, such as external sound around the camera that the user desires to record (for example, environmental sound, human speech, etc.). "Sound"), as well as pulsed mechanical sound generated inside the camera. For this reason, since the pulse mechanical sound is recorded as noise in the desired sound, when the recorded sound is reproduced, the pulse mechanical sound mixed in the desired sound becomes annoying to the user. For example, since the pulse mechanical sound is generated near the microphone with vibration of the casing of 200 Hz or less, it is picked up with a louder volume than the desired sound. Thus, since there is a volume difference between the pulse mechanical sound and the desired sound, if the mechanical sound is mixed in the desired sound, the pulse mechanical sound becomes conspicuous when the recorded sound is reproduced. Accordingly, there has been a demand for a technique capable of recording only desired sound after appropriately removing pulse mechanical sound such as the zoom start sound at the time of recording or reproducing moving images and sounds.
従来の雑音低減技術では、上記特許文献1記載のように、駆動装置を制御するための駆動信号の送信タイミングによって、機械駆動音の発生区間(雑音区間)を推定し、当該雑音区間の前後の区間の信号を用いて補間信号を推定し、雑音区間の信号を当該補間信号で補間することにより、雑音を低減していた。しかし、かかる雑音低減方法では、上述したように、雑音区間の前後の区間の信号を保持して補間信号を生成するために、これら全ての区間の信号を同時に保持するためには、雑音区間長Nの3倍程度に相当するバッファメモリが必要であった(図1参照。)。このため、雑音低減処理に要するバッファメモリが増大するだけでなく、当該バッファメモリに3*Nの信号を保持する時間分だけ、入力音声に対して出力音声が大幅に遅延していた(少なくとも2*Nの遅延が発生)。
In the conventional noise reduction technology, as described in
そこで、本実施形態では、雑音低減処理回路に設けた2つのバッファメモリを上手く利用して、フレーム単位での音声信号の処理を好適に制御し、補間信号を生成することを特徴としている。これにより、補間信号の生成に必要なバッファメモリ長を減少できるとともに、入力音声信号に対する出力音声信号の遅延も大幅に低減できる。 Therefore, the present embodiment is characterized in that the two buffer memories provided in the noise reduction processing circuit are effectively used to suitably control the processing of the audio signal in units of frames and generate the interpolation signal. As a result, the buffer memory length required for generating the interpolation signal can be reduced, and the delay of the output audio signal with respect to the input audio signal can be greatly reduced.
さらに、本実施形態では、パルス機械音を含む雑音区間の前の区間の音声信号のみを用いて、補間信号を生成し、雑音区間の音声信号を当該補間信号で補間した上で出力することを特徴としている。このように、雑音区間の前の区間の音声信号のみを用いて補間信号を生成したとしても、パルス機械音を適切に低減することが可能である。この理由は次の通りである。 Furthermore, in the present embodiment, the interpolation signal is generated using only the audio signal in the section before the noise section including the pulse mechanical sound, and the audio signal in the noise section is output after being interpolated with the interpolation signal. It is a feature. Thus, even if the interpolation signal is generated using only the audio signal in the section before the noise section, the pulse mechanical sound can be appropriately reduced. The reason is as follows.
上述した特許文献1等に記載の従来技術では、雑音を含まない区間(雑音区間の前後の区間)の信号として、例えば人の話し声のような音声を仮定している。かかる音声は、狭い時間でみると、周期的な信号から構成されている。周期的な信号中の雑音を補間するためには、その雑音前後の信号の周期と同一の周期を有する補間信号を生成し、周期を乱さずに雑音区間の前後をつなげなければならない。この理由は、補間処理によって信号の周期が乱れた場合、聴感上違和感のある音になるからである。従って、従来では当業者にとって、雑音区間の前後の信号を用いて補間信号を生成することが一般的であり、雑音区間の前の信号のみを用いて補間信号を生成することは、音質の面で問題が生じると考えられていた。
In the prior art described in
しかし、実際の録音環境では、人の話し声のような周期的な音声が常に発生しているわけではなく、様々な音が混ざり合って非周期的な音声が生じている場合の方が多い。もし、雑音区間の前後が非周期的な音声が存在する場合は、雑音区間の補間前後の周期を揃える必要がなく、違和感のある音の発生が起こりにくい。これにより、雑音の前方の音声のみを使って補間した場合であっても、実質的には適切な雑音除去が可能ということになる。 However, in an actual recording environment, periodic sounds such as human speech are not always generated, and in many cases, various sounds are mixed to generate non-periodic sounds. If there is a non-periodic speech before and after the noise section, it is not necessary to align the periods before and after the interpolation of the noise section, and it is difficult for a sound with an uncomfortable feeling to occur. As a result, even when interpolation is performed using only the speech in front of the noise, it is possible to remove noise substantially.
また、雑音前後が周期的な音声(人の話し声等)である場合も起こりうるが、カメラの近くで発話されている場合がほとんどであり、この場合には、大きな音量の音声としてマイクへ入力される。従って、カメラ内部で発生する雑音(パルス機械音等)よりも、外部から入力された音声の方が大きくなるため、マスキング現象によって雑音そのものが聞こえなくなる事が多い。従って、このような場合は、雑音区間の補間処理を行う必要がないため、雑音の前方の音声を使った補間による悪影響は無いと言える。 It can also occur when the noise is periodic (such as human speech), but in most cases it is spoken near the camera. In this case, the sound is input to the microphone as a loud sound. Is done. Therefore, since the voice inputted from the outside is larger than the noise (pulse mechanical sound etc.) generated inside the camera, the noise itself is often inaudible due to the masking phenomenon. Therefore, in such a case, it is not necessary to perform an interpolation process in the noise section, and it can be said that there is no adverse effect due to the interpolation using the speech in front of the noise.
そこで、以下に詳述する第1の実施形態では、入力される音声信号のうち、n番目の区間が雑音を含む雑音区間である場合には、当該雑音区間の1つ前のn−1番目の区間の音声信号のみを用いて、雑音低減用の補間信号を生成する(n:自然数)。かかる補間処理であっても、上記理由により、雑音を適切に低減することが可能である。以下に、第1の実施形態に係る音声信号処理装置及び方法について詳述する。 Therefore, in the first embodiment described in detail below, when the nth section of the input audio signal is a noise section including noise, the (n−1) th one before the noise section. Interpolation signals for noise reduction are generated using only the audio signal in the interval (n: natural number). Even with such an interpolation process, it is possible to appropriately reduce noise for the above reasons. The audio signal processing apparatus and method according to the first embodiment will be described in detail below.
[1.2.音声信号処理装置の構成]
[1.2.1.音声信号処理装置のハードウェア構成]
まず、図2を参照して、本実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成例について説明する。図2は、本実施形態に係る音声信号処理装置が適用されたデジタルカメラ1のハードウェア構成を示すブロック図である。
[1.2. Configuration of audio signal processing apparatus]
[1.2.1. Hardware configuration of audio signal processing apparatus]
First, a hardware configuration example of a digital camera to which the audio signal processing device according to this embodiment is applied will be described with reference to FIG. FIG. 2 is a block diagram illustrating a hardware configuration of the
本実施形態に係るデジタルカメラ1は、例えば、動画撮像中に動画と共に音声も記録可能な撮像装置である。このデジタルカメラ1は、被写体を撮像して、当該撮像により得られた撮像画像(静止画又は動画のいずれでもよい。)をデジタル方式の画像データに変換し、音声とともに記録媒体に記録する。
The
図2に示すように、本実施形態に係るデジタルカメラ1は、概略的には、撮像部10と、画像信号処理部20と、表示部30と、記録媒体40と、収音部50と、音声信号処理部60と、制御部70と、操作部80とを備える。
As shown in FIG. 2, the
撮像部10は、被写体を撮像して、撮像画像を表すアナログ画像信号を出力する。撮像部10は、撮像光学系11と、撮像素子12と、タイミングジェネレータ13と、駆動装置14とを備える。
The
撮像光学系11は、フォーカスレンズ、ズームレンズ、補正レンズ等の各種レンズや、不要な波長を除去する光学フィルタ、シャッター、絞り等の光学部品からなる。被写体から入射された光学像(被写体像)は、撮像光学系11における各光学部品を介して、撮像素子12の露光面に結像される。撮像素子12(イメージセンサ)は、例えば、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などの固体撮像素子で構成される。この撮像素子12は、撮像光学系11から導かれた光学像を光電変換し、撮像画像を表す電気信号(アナログ画像信号)を出力する。
The imaging
撮像光学系11には、該撮像光学系11の光学部品を駆動するための駆動装置14が機械的に接続されている。この駆動装置14は、例えば、ズームモータ15、フォーカスモータ16、絞り機構(図示せず。)などを含む。駆動装置14は、後述する制御部70の指示に従って、撮像光学系11の光学部品を駆動させ、ズームレンズ、フォーカスレンズを移動させたり、絞りを調整したりする。例えば、ズームモータ15は、ズームレンズをテレ/ワイド方向に移動させることで、画角を調整するズーム動作を行う。また、フォーカスモータ16は、フォーカスレンズを移動させることで、被写体に焦点を合わせるフォーカス動作を行う。
A driving
また、タイミングジェネレータ13(以下、TG13という。)は、制御部70の指示に従って、撮像素子12に必要な動作パルスを生成する。例えば、TG13は、垂直転送のための4相パルス、フィールドシフトパルス、水平転送のための2相パルス、シャッタパルスなどの各種パルスを生成し、撮像素子12に供給する。このTG13により撮像素子12を駆動させることで、被写体像が撮像される。また、TG13が、撮像素子12のシャッタースピードを調整することで、撮像画像の露光量や露光期間が制御される(電子シャッター機能)。上記の撮像素子12が出力した画像信号は画像信号処理部20に入力される。
Further, the timing generator 13 (hereinafter referred to as TG 13) generates an operation pulse necessary for the
画像信号処理部20は、マイクロコントローラなどの電子回路で構成され、撮像素子12から出力される画像信号に対して所定の画像処理を施し、当該画像処理後の画像信号を表示部30や制御部70に出力する。画像信号処理部20は、アナログ信号処理部21、アナログ/デジタル(A/D)変換部22、デジタル信号処理部23を備える。
The image
アナログ信号処理部21は、画像信号を前処理する所謂アナログフロントエンドである。該アナログ信号処理部21は、例えば、撮像素子12から出力される画像信号に対して、CDS(correlated double sampling:相関2重サンプリング)処理、プログラマブルゲインアンプ(PGA)によるゲイン処理などを行う。A/D変換部22は、アナログ信号処理部21から入力されたアナログ画像信号をデジタル画像信号に変換して、デジタル信号処理部23に出力する。デジタル信号処理部23は、入力されたデジタル画像信号に対して、例えば、ノイズ除去、ホワイトバランス調整、色補正、エッジ強調、ガンマ補正等のデジタル信号処理を行って、表示部30や制御部70等に出力する。
The analog
表示部30は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機ELディスプレイなどの表示装置で構成される。表示部30は、制御部70による制御に従って、入力された各種の画像データを表示する。例えば、表示部30は、撮像中に画像信号処理部20からリアルタイムで入力される撮像画像(スルー画像)を表示する。これにより、ユーザは、デジタルカメラ1で撮像中のスルー画像を見ながら、デジタルカメラ1を操作することができる。また、記録媒体40に記録されている撮像画像を再生したときに、表示部30は、当該再生画像を表示する。これにより、ユーザは、記録媒体40に記録されている撮像画像の内容を確認することができる。
The
記録媒体40は、上記撮像画像のデータ、音声データ、それらのメタデータなどの各種のデータを記憶する。記録媒体40は、例えば、メモリカード等の半導体メモリ、又は、光ディスク、ハードディスク等のディスク状記録媒体などを使用できる。なお、光ディスクは、例えば、ブルーレイディスク(Blu−ray Disc)、DVD(Digital Versatile Disc)又はCD(Compact Disc)等を含む。なお、記録媒体40は、デジタルカメラ1に内蔵されてもよいし、デジタルカメラ1に着脱可能なリムーバブルメディアであってもよい。
The
収音部50は、デジタルカメラ1周辺の外部音声を収音する。本実施形態に係る収音部50は、1つの外部音声収録用のマイクロホン51からなるモノラルマイクロホンであるが、2つのマイクロホンからなるステレオマイクロホンで構成されてもよい。マイクロホン51は、外部音声を収音して得られた音声信号をそれぞれ出力する。かかる収音部50により、動画撮像中に外部音声を収音して、動画と共に記録できるようになる。かかるマイクロホン51は、外部音声(所望音)を収音するためにデジタルカメラ1の筐体に設けられているが、当該筐体内に設けられた発音部(上記駆動装置14)の機械駆動音も雑音として収音してしまう。
The
音声信号処理部60は、マイクロコントローラなどの電子回路で構成され、音声信号に対して所定の音声処理を施して、記録用の音声信号を出力する。この音声処理は、例えば、AD変換処理、雑音低減処理などを含む。本実施形態は、この音声信号処理部60による雑音低減処理を特徴としているが、その詳細説明は後述する。
The audio
制御部70は、マイクロコントローラなどの電子回路で構成され、デジタルカメラ1の全体の動作を制御する。制御部70は、例えば、CPU71、EEPROM(Electrically Erasable Programmable ROM)72、ROM(Read Only Memory)73、RAM(Random Access Memory)74を備える。かかる制御部70は、デジタルカメラ1内の各部を制御する。例えば、制御部70は、マイクロホン51により収音された音声信号から、駆動装置14で発生した機械音を雑音として低減するに、音声信号処理部60の動作を制御する。
The
制御部70におけるROM73には、CPU71に各種の制御処理を実行させるためのプログラムが格納されている。CPU71は、該プログラムに基づいて動作して、RAM74を用いながら、上記各制御のための必要な演算・制御処理を実行する。該プログラムは、デジタルカメラ1に内蔵された記憶装置(例えば、EEPROM72、ROM73等)に予め格納しておくことができる。また、当該プログラムは、ディスク状記録媒体、メモリカードなどのリムーバブル記録媒体に格納されて、デジタルカメラ1に提供されてもよいし、LAN、インターネット等のネットワークを介してデジタルカメラ1にダウンロードされてもよい。
The
ここで、制御部70による制御の具体例について説明する。制御部70は、上記撮像部10のTG13や駆動装置14を制御して、撮像部10による撮像処理を制御する。例えば、制御部70は、上記撮像光学系11の絞りの調整、撮像素子12の電子シャッタースピードの設定、アナログ信号処理部21のAGCのゲイン設定などにより、自動露光制御を行う(AE機能)。また、制御部70は、上記撮像光学系11のフォーカスレンズを移動させて、フォーカスポジションを変更することで、特定の被写体に対して撮像光学系11の焦点を自動的に合わせるオートフォーカス制御を行う(AF機能)。また、制御部70は、上記撮像光学系11のズームレンズを移動させて、ズームポジションを変更することで、撮像画像の画角を調整する。また、制御部70は、記録媒体40に対して撮像画像、メタデータなどの各種のデータを記録し、また、記録媒体40に記録されているデータを読み出して再生する。さらに、制御部70は、表示部30に表示するための各種の表示画像を生成し、表示部30を制御して該表示画像を表示させる。
Here, a specific example of control by the
操作部80、表示部30は、ユーザがデジタルカメラ1の動作を操作するためのユーザインターフェースとして機能する。操作部80は、ボタン、レバー等の各種の操作キー、又はタッチパネル等で構成され、例えば、ズームボタン、シャッターボタン、電源ボタンなどを含む。操作部80は、ユーザ操作に応じて、各種の撮像動作を指示するための指示情報を制御部70に出力する。
The
[1.2.2.音声信号処理装置の機能構成]
次に、図3を参照して、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図2は、本実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
[1.2.2. Functional configuration of audio signal processing apparatus]
Next, a functional configuration example of the audio signal processing device applied to the
図3に示すように、音声信号処理装置100は、信号入力部110と、入出力用バッファメモリ120(第1のバッファメモリ)と、補間用バッファメモリ130(第2のバッファメモリ)と、雑音検出部140と、雑音低減部150と、信号出力部160とを備える。信号入力部110は、上記図2のマイクロホン51を備える。雑音低減部150は、補間信号生成部152と、信号補間部154とを備える、また、上記入出力用バッファメモリ120、補間用バッファメモリ130、雑音検出部140及び雑音低減部150は、上記図2の音声信号処理部60を構成する。
As shown in FIG. 3, the audio
これら音声信号処理装置100の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声信号処理装置100のプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。当該プログラムは、コンピュータ読み取り可能な記録媒体(例えば、光ディスク、ハードディスク、半導体メモリ等)を介して音声信号処理装置100に提供されてもよいし、又は各種の通信手段を介して提供されてもよい。以下に、音声信号処理装置100の各部について説明する。
Each unit of the audio
信号入力部110は、デジタルカメラ1の筐体に設置されたマイクロホン51、AD変換部(図示せず。)等で構成される。信号入力部110は、マイクロホン51は、デジタルカメラ1の周囲の所望音(録音対象の音声)を収音し、当該外部音声を音声信号に変換して出力する。この音声信号には、所望音のみならず、デジタルカメラ1の駆動装置14で発生するパルス機械音やその他の機械駆動音などの雑音が混入する。また、不図示のAD変換部は、上記マイクロホン51から出力されたアナログ音声信号を、デジタル音声信号に変換して、出力する。
The
入出力用バッファメモリ120(第1のバッファメモリ)、補間用バッファメモリ130(第2のバッファメモリ)は、マイクロホンから入力された音声信号や、生成した補間信号を一時保存する信号保持部として機能する。このように、本実施形態に係る音声信号処理装置100は、2つのバッファメモリを備えており、この2つのバッファメモリを用いて音声信号を所定区間ごとに(つまり、フレーム単位で)処理することで雑音を低減する。本実施形態では、入出力用バッファメモリ120と補間用バッファメモリ130は、信号入力部110と信号出力部160との間に並列に接続されており、これにより、2つの区間の音声信号を並列処理することができる。
The input / output buffer memory 120 (first buffer memory) and the interpolation buffer memory 130 (second buffer memory) function as a signal holding unit that temporarily stores the audio signal input from the microphone and the generated interpolation signal. To do. As described above, the audio
音声信号処理装置100が音声信号をフレーム単位で入出力及び処理するために、出力用バッファメモリ120は、現在入力される音声信号の1フレーム分を一時保存する。補間用バッファメモリ130は、雑音区間を補間するために、1フレーム分過去に入力された音声信号を保持する。これら2つのバッファメモリのメモリ長は同一であり、例えば、それぞれのバッファメモリが、1フレーム分のデジタル音声信号(サンプルデータ数N)を保存可能である。従って、音声信号処理装置100が備えるバッファメモリの長さは、2*Nとなる。なお、入出力用バッファメモリ120及び補間用バッファメモリ130は、物理的に分離された2つのバッファメモリで構成されてもよいし、物理的に1つのバッファメモリの記憶領域を分離することで構成されてもよい。
In order for the audio
入出力用バッファメモリ120は、信号入力部110から入力された音声信号を、所定区間ごとに(例えば、1フレームずつ)一時保存する。この入出力用バッファメモリ120は、入力される音声信号の1フレーム分全てを保存完了した時点で、当該1フレームの音声信号を出力する。これにより、信号入力部110から入力された音声信号は、1フレームずつ順次、入出力用バッファメモリ120に保存された後に、信号出力部160に出力される。
The input /
また、入出力用バッファメモリ120から出力された1フレームの音声信号は、補間用バッファメモリ130に一時保存される。つまり、補間用バッファメモリ130は、入出力用バッファメモリ120に保存されている現在のフレーム(n番目のフレーム)の音声信号よりも1つ前の過去のフレーム(n−1番目のフレーム)の音声信号を一時保存する。従って、信号入力部110から入力されるn番目のフレームの音声信号が、入出力用バッファメモリ120に蓄積されている最中には、補間用バッファメモリ130にn−1番目のフレームの音声信号が保存されていることになる。これら2つのバッファメモリにより、常時、2フレーム分の音声信号が音声信号処理装置100内に保持される。
The audio signal of one frame output from the input /
雑音検出部140は、信号入力部110から入力された音声信号のうち、パルス機械音等の雑音が含まれる区間(雑音区間)を検出する。雑音検出部140は、入出力用バッファメモリ120に保存されている所定区間の音声信号に雑音が含まれるか否かを検出し、雑音が含まれる場合は、当該区間が雑音区間であると判定する。雑音検出部140は、雑音区間を検出したときに、その区間を表す情報を雑音低減部150に通知する。
The
例えば、雑音がパルス機械音である場合、雑音検出部140は、上記駆動装置14が動作している区間を、雑音区間として検出する。雑音検出部140は、駆動装置14の制御情報を取得することで、当該制御情報から駆動装置14の動作期間(雑音区間)を検出可能である。
For example, when the noise is a pulse mechanical sound, the
また、雑音検出部140は、信号入力部110から入力された実際の音声信号を解析して雑音の特徴量を抽出することで、雑音の有無を判定し、雑音期間を検出してもよい。例えば、パルス機械音はパルス成分及び残響成分という特徴的な成分を含むため、これら2種類の成分を検出することができれば、パルス機械音の有無を正確に検出できる。そこで、雑音検出部140は、マイクロホン51から出力された音声信号から、上記パルス機械音のパルス成分を表す特徴量(例えば、パルス成分の振幅最大値A、パルス幅W)、パルス機械音の残響成分を表す特徴量(例えば、パルス機械音の残響成分を表す狭帯域信号のパワー値P、当該狭帯域信号の零交差点回数M)を抽出する。そして、雑音検出部140は、上記パルス機械音を表す特徴量(振幅最大値A、パルス幅W、残響成分パワー値P等)に基づいて、音声信号にパルス機械音が含まれるか否かを判定する。例えば、雑音検出部140は、統計的識別法又はテーブル判定を用いた判定方法により、上記特徴量と所定の判定係数を用いて、音声信号におけるパルス機械音の有無を総合的に判定する。これにより、音声信号にパルス機械音が含まれているか否かを判定し、音声信号におけるパルス機械音が含まれている区間を特定することができる。
In addition, the
雑音低減部150は、上記雑音検出部140による検出結果に応じて、音声信号に対して雑音低減処理を行い、音声信号からパルス機械音等の雑音を除去する。具体的には、入出力用バッファメモリ120に保存されている区間の音声信号にパルス機械音等の雑音が含まれると判定された場合に、雑音低減部150は、当該パルス機械音が含まれる区間の音声信号に対して雑音低減処理を行う。一方、パルス機械音が含まれていないと判定された場合に、雑音低減部150は、雑音低減処理を行わない。このように、パルス機械音が含まれる場合にのみ、当該パルス機械音が含まれる区間(雑音区間)の音声信号に対して雑音低減処理を行うことで、雑音低減処理の処理効率を向上し、無駄な処理負荷を軽減できる。
The
雑音低減部150は、雑音低減方法として、雑音区間の前又は後の区間の信号から当該雑音区間の背景音の信号波形を推定し、推定した信号を用いて雑音区間の信号を補間する方法を使用する。この補間方法を実行するために、雑音低減部150は、補間信号生成部152と、信号補間部154とを備える。
As a noise reduction method, the
補間信号生成部152は、雑音区間の前の区間の信号を用いて、雑音区間を補間するための補間信号を生成する。この補間信号の生成処理は、入出力用バッファメモリ120に保存されている現在のフレーム(n番目のフレーム)の音声信号に雑音が含まれることが検出されたときに、実行される。このとき、補間信号生成部152は、補間用バッファメモリ130に保存されている1フレーム過去(n−1番目のフレーム)の音声信号を用いて、現在、入出力用バッファメモリ120に保存されている雑音区間の音声信号を補間するための補間信号を生成する。
The interpolation
ここで、図4、図5を参照して、上記補間信号の生成方法の例について説明する。図4、図5は、本実施形態に係る雑音区間の前の入力音声信号から補間信号を生成する方法を示す概念図である。 Here, an example of the method of generating the interpolation signal will be described with reference to FIGS. 4 and 5 are conceptual diagrams showing a method for generating an interpolated signal from the input speech signal before the noise section according to the present embodiment.
(a)シンプルな生成方法
図4の上段に示すように、補間用バッファメモリ130に保存されている1フレームの音声信号をs(n)={s0,s1,・・・,sN−1}と表現する。ここで、s0,s1,・・・,sN−1は、当該1フレーム中のN個のサンプルデータの値を示す。かかる音声信号s(n)から補間信号V(n)を生成する場合、例えば、図4の中段に示すように、音声信号s(n)を時間軸方向に反転させて、補間信号v(n)={sN−1,sN−2,・・・,s1,s0}を生成してもよい。また、図4の下段に示すように、音声信号s(n)を時間軸方向及び振幅方向に反転させて、補間信号v(n)={−sN−1,−sN−2,・・・,−s1,−s0}を生成してもよい。
(A) Simple Generation Method As shown in the upper part of FIG. 4, s (n) = {s 0 , s 1 ,..., S N -1 }. Here, s 0 , s 1 ,..., S N−1 indicate the values of N sample data in the one frame. When generating the interpolated signal V (n) from the audio signal s (n), for example, as shown in the middle part of FIG. 4, the audio signal s (n) is inverted in the time axis direction and the interpolated signal v (n ) = {S N−1 , s N−2 ,..., S 1 , s 0 } may be generated. Further, as shown in the lower part of FIG. 4, the audio signal s (n) is inverted in the time axis direction and the amplitude direction, and the interpolation signal v (n) = {− s N−1 , −s N−2 ,. .., -S 1 , -s 0 } may be generated.
(b)窓を用いた生成方法
また、図5は、別の補間信号生成方法を示す。図5に示すように、音声信号s(n)に適当な窓w(n)を乗算した信号p(n)とq(n)を合成することで、より自然な補間信号v(n)を生成することもできる。ここで、窓w(n)としては、ハニング窓又はバーとレット窓などを使用できる。より詳細には、図5に示すように、まず、音声信号s(n)={s0,s1,・・・,sN−1}に窓w(n)={w0,w1,・・・,wN−1}を乗算して、信号p(n)={s0w0,s1w1,・・・,sN−1wN−1}を生成する。次いで、信号p(n)を時間軸方向に反転させて、信号q(n)={sN−1wN−1,・・・,s1w1,s0w0}を生成する。そして、信号p(n)と信号q(n)を加算して、補間信号v(n)=p(n)+q(n)={s0w0+sN−1wN−1,s1w1+sN−2wN−2,・・・,sN−1wN−1+s0w0}を生成する。或いは、信号p(n)から信号q(n)を減算して、補間信号v(n)=p(n)−q(n)={s0w0−sN−1wN−1,s1w1−sN−2wN−2,・・・,sN−1wN−1−s0w0}を生成する。このようにして、音声信号s(n)から、より自然な補間信号v(n)を生成することも可能である。
(B) Generation Method Using Window FIG. 5 shows another interpolation signal generation method. As shown in FIG. 5, a more natural interpolation signal v (n) is obtained by synthesizing signals p (n) and q (n) obtained by multiplying an audio signal s (n) by an appropriate window w (n). It can also be generated. Here, as the window w (n), a Hanning window or a bar and a let window can be used. More specifically, as shown in FIG. 5, first, the window w (n) = {w 0 , w 1 in the audio signal s (n) = {s 0 , s 1 ,..., S N−1 }. ,..., W N −1 } to generate a signal p (n) = {s 0 w 0 , s 1 w 1 ,..., S N−1 w N−1 }. Next, the signal p (n) is inverted in the time axis direction to generate signals q (n) = {s N−1 w N−1 ,..., S 1 w 1 , s 0 w 0 }. Then, the signal p (n) and the signal q (n) are added, and the interpolation signal v (n) = p (n) + q (n) = {s 0 w 0 + s N−1 w N−1 , s 1 w 1 + s N−2 w N−2 ,..., s N−1 w N−1 + s 0 w 0 } are generated. Alternatively, the signal q (n) is subtracted from the signal p (n), and the interpolation signal v (n) = p (n) −q (n) = {s 0 w 0 −s N−1 w N−1 , s 1 w 1 -s N-2 w N-2, ···, and generates an s N-1 w N-1 -s 0 w 0}. In this way, a more natural interpolation signal v (n) can be generated from the audio signal s (n).
再び図3を参照して、音声信号処理装置100の各部の説明を続ける。図3に示すように、信号補間部154は、上記補間信号生成部152により生成された補間信号を用いて、入出力用バッファメモリ120に保存されているn番目のフレームの音声信号(雑音区間の音声信号)を補間する。
With reference to FIG. 3 again, description of each part of the audio
例えば、信号補間部154は、入出力用バッファメモリ120に保存されている雑音区間の音声信号の全ての振幅値(つまり、N個のサンプルデータ)をゼロにした後に、上記補間信号をそのまま上書きすることによって、補間処理を実行してもよい。この補間処理により、雑音を含むn番目の区間の音声信号が補間信号に置換されて出力される。或いは、信号補間部154は、入出力用バッファメモリ120に保存されている雑音区間の音声信号と、補間信号を適当な混合比で合成することで、補間処理を実行してもよい。この補間処理により、雑音区間の音声信号が、雑音を低減された上で出力される。
For example, the
かる信号補間部154による補間処理により、入力された雑音区間の音声信号に換えて、補間信号で補間された音声信号が出力されるようになるので、当該雑音区間に含まれる雑音を低減・除去することができる。
As a result of the interpolation processing by the
信号出力部160は、上記入出力用バッファメモリ120から出力された音声信号を1フレームずつ外部に出力する。雑音低減部150により雑音低減処理がなされた場合には、信号出力部160は、雑音が低減された音声信号を出力する。例えば、信号出力部160は、上記音声信号を信号記録部(上記図2の制御部70及び記録媒体40で構成される。)に出力してもよいし、或いは、スピーカ又はヘッドホンなどの音声出力部(図示せず。)に出力してもよい。音声信号を信号記録部に出力した場合には、上記雑音が低減された音声信号が記録媒体(図示せず。)に記録される。なお、記録媒体は、ハードディスク、磁気テープ等の磁気記録媒体、DVD、ブルーレイディスク等の光記録媒体、フラッシュメモリ、USBメモリ等の半導体メモリなど、任意の記録媒体であってよい。
The
[1.3.音声信号処理装置の動作]
次に、本実施形態に係る音声信号処理装置100の動作について説明する。以下では、雑音がない通常時の動作例と、雑音発生時の動作例についてそれぞれ説明する。
[1.3. Operation of audio signal processing apparatus]
Next, the operation of the audio
[1.3.1.雑音がない通常時の動作例]
まず、図6を参照して、雑音がない通常時の音声信号処理装置100の動作について説明する。図6は、本実施形態に係る音声信号処理装置100の通常時の動作を示す模式図である。
[1.3.1. Example of normal operation without noise]
First, with reference to FIG. 6, the operation of the audio
図6に示すように、雑音が発生していない通常時には、マイクロホン51から入力された音声信号は、フレーム単位で順次、入出力用バッファメモリ120、補間用バッファメモリ130に一時保存される。補間用バッファメモリ130に保存されるフレームは、入出力用バッファメモリ120に蓄積されているフレームよりも1つ前(過去)のフレームである。例えば、図6Aに示すように、現在、n番目のフレームの音声信号s(n)が新たに入力されて、入出力用バッファメモリ120に蓄積されているときには、1フレーム分だけ過去に入力されたn−1番目のフレームの音声信号s(n−1)が補間用バッファメモリ130に保存されている。
As shown in FIG. 6, during normal times when noise is not generated, the audio signal input from the
そして、n番目のフレームの音声信号s(n)の全てが入出力用バッファメモリ120に蓄積完了された時に直ちに、図6Bに示すように、当該入出力用バッファメモリ120に保存されているn番目のフレームの音声信号s(n)が外部に出力され、入出力用バッファメモリ120内のデータが消去される。このとき、雑音は検出されていないので、n番目のフレームの音声信号s(n)に対して何ら特別な処理を施すことなく、当該音声信号s(n)がそのまま出力される。また、当該音声信号s(n)の出力とともに、当該音声信号s(n)が補間用バッファメモリ130にコピーされる。これは、次に入力されるn+1番目のフレームの音声信号s(n+1)に雑音が検出された場合に、補間用バッファメモリ130内のn番目のフレームの音声信号s(n)から、n+1番目のフレーム用の補間信号v(n+1)を生成するためである。
Then, as soon as all the audio signals s (n) of the nth frame have been accumulated in the input /
[1.3.2.雑音発生時の動作例]
次に、図7を参照して、雑音発生時の音声信号処理装置100の動作について説明する。図7は、本実施形態に係る音声信号処理装置100の雑音発生時の動作例を示す模式図である。
[1.3.2. Example of operation when noise occurs]
Next, the operation of the audio
図7に示すように、入力される音声信号に雑音(例えばパルス機械音)が含まれる場合であっても、マイクロホン51から入力された音声信号は、フレーム単位で順次、入出力用バッファメモリ120、補間用バッファメモリ130に一時保存される。図7Aに示すように、雑音が含まれるn番目のフレームの音声信号s(n)が新たに入力され、入出力用バッファメモリ120に蓄積されているときには、1フレーム分だけ過去のn−1番目のフレームの音声信号s(n−1)が補間用バッファメモリ130に一時保存されている。
As shown in FIG. 7, even when noise (for example, pulse mechanical sound) is included in the input audio signal, the audio signal input from the
そして、n番目のフレームの音声信号s(n)の全てが入出力用バッファメモリ120に蓄積完了し、かつ、当該音声信号s(n)に雑音が含まれることが検出されたときには、図7Bに示す補間処理が直ちに実行される。つまり、補間信号生成部152は、図7Bに示すように、補間用バッファメモリ130に保存されているn−1番目のフレームの音声信号s(n−1)から、雑音区間(n番目のフレーム)の音声信号s(n)を補間するための補間信号v(n)を生成する。この補間信号v(n)の生成方法は前述した通りである(図4、図5参照。)。図6Bの例では、n−1番目のフレームの音声信号s(n−1)を時間軸方向に反転させることにより、補間信号v(n)が生成されている。そして、信号補間部154は、入出力用バッファメモリ120に保存されているn番目のフレームの音声信号s(n)を削除して、上記補間信号v(n)を入出力用バッファメモリ120に保存する。
When it is detected that all of the audio signal s (n) of the nth frame has been accumulated in the input /
次いで、図7Cに示すように、信号補間部154は、入出力用バッファメモリ120に保存されている補間信号v(n)を、図7Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて外部に出力し、入出力用バッファメモリ120内のデータを消去する。さらに、信号補間部154は、上記補間信号v(n)の出力とともに、当該補間信号v(n)を補間用バッファメモリ130にコピーする。これは、次に入力されるn+1番目のフレームの音声信号s(n+1)に雑音が検出された場合に、補間用バッファメモリ130内の補間信号v(n)から、n+1番目のフレーム用の補間信号v(n+1)を生成するためである。
Next, as illustrated in FIG. 7C, the
以上のように、n番目のフレームの音声信号s(n)に雑音が含まれる場合には、当該雑音を低減するために、n−1番目のフレームの音声信号s(n−1)を利用して補間信号v(n)を生成して、補間処理が実行される。この補間処理により、当該雑音を含むn番目のフレームの入力音声信号s(n)に換えて、雑音を含まない補間信号v(n)が外部に出力されるので、雑音を好適に除去できる。 As described above, when noise is included in the audio signal s (n) of the nth frame, the audio signal s (n-1) of the (n-1) th frame is used to reduce the noise. Then, an interpolation signal v (n) is generated and interpolation processing is executed. By this interpolation processing, the interpolation signal v (n) not including noise is output to the outside instead of the input speech signal s (n) of the nth frame including the noise, so that noise can be suitably removed.
また、上記のようにフレーム単位で音声信号を入出力して補間処理する場合、入出力用バッファメモリ120及び補間用バッファメモリ130のメモリ長はそれぞれ、1フレームのサンプルデータ数Nでよい。従って、装置全体で必要なバッファメモリ長は2*Nで済む。また、入出力用バッファメモリ120に対して雑音区間の音声信号s(n)が蓄積完了した時点で直ちに、補間信号v(n)を生成して外部に出力できるので、入力音声に対する出力音声の遅延はゼロである。
When the audio signal is input and output in frame units as described above for interpolation processing, the memory lengths of the input /
[1.4.音声信号処理方法]
次に、図8を参照して、上記の音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図8は、本実施形態に係る音声信号処理方法を示すフローチャートである。
[1.4. Audio signal processing method]
Next, an audio signal processing method (mechanical sound reduction method) using the audio
本実施形態に係る音声信号処理装置100を具備するデジタルカメラ1による撮像及び録音中には、その周囲の外部音声がマイクロホン51により収音され、音声信号が出力される。すると、音声信号処理装置100は、マイクロホン51から入力されたアナログ音声信号を、デジタル音声信号に変換し、当該デジタル音声信号をフレーム単位で処理する。即ち、音声信号処理装置100は、入力された音声信号を1フレームずつ入出力用バッファメモリ120に保存し、現在入力中のフレームの1つ前のフレームの音声信号を補間用バッファメモリ130に保存する。そして、音声信号処理装置100は、フレーム単位で雑音の有無を検出して、雑音が検出された場合には、当該フレームに対して、その前のフレームの信号を用いて補間処理を施す。図8は、この処理の詳細フローを示す。
During imaging and recording by the
図8に示すように、まず、音声信号処理装置100は、マイクロホン51から入力される1フレーム分の音声信号が入出力用バッファメモリ120に蓄積されたか否かを判定する(S100)。ここでは、現在、n番目のフレームの音声信号s(n)が入力中である場合の処理について説明する。S100の判定の結果、n番目のフレームの音声信号s(n)が入出力用バッファメモリ120に蓄積完了したときには直ちに、雑音検出部140は、当該音声信号s(n)に雑音が含まれるか否かを検出する(S102)。
As shown in FIG. 8, first, the audio
S102の雑音判定の結果、雑音が検出された場合には直ちに、補間処理(図7参照。)が実行される。即ち、補間信号生成部152は、補間信号生成部152は、補間用バッファメモリ130に保存されているn−1番目のフレーム(1フレーム分過去)の音声信号s(n−1)を用いて、補間信号v(n)を生成する(S104)。そして、信号補間部154は、S104で生成された補間信号v(n)を用いて、雑音を含むn番目のフレームの音声信号s(n)を補間し、補間信号v(n)を入出力用バッファメモリ120に保存する(S106)。このS106の補間処理では、雑音を含むn番目のフレームの音声信号s(n)を補間信号v(n)に置換してもよいし、当該音声信号s(n)と補間信号v(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
If noise is detected as a result of the noise determination in S102, an interpolation process (see FIG. 7) is immediately executed. That is, the interpolation
次いで、信号補間部154は、入出力用バッファメモリ120に保存されている雑音低減後の補間信号v(n)(n番目のフレームに相当する。)を補間用バッファメモリ130にコピーするとともに(S108)、当該補間信号v(n)を信号出力部160に出力する(S110)。
Next, the
一方、S102の雑音判定の結果、雑音が検出されない場合は、上記S108、S110の補間処理を行わずに、入力されたn番目のフレームの音声信号s(n)をそのまま出力する。即ち、信号補間部154は、入出力用バッファメモリ120に保存されているn番目のフレームの音声信号s(n)を補間用バッファメモリ130にコピーするとともに(S108)、当該音声信号s(n)をそのまま入出力用バッファメモリ120から信号出力部160に出力する(S110)。
On the other hand, if no noise is detected as a result of the noise determination in S102, the input nth frame audio signal s (n) is output as it is without performing the interpolation processing in S108 and S110. That is, the
その後、デジタルカメラ1による撮像及び録音動作が終了(S112)するまで、入力音声信号の次の1フレームの音声信号s(n+1)に対して、上記S100〜S100の処理が繰り返される。これにより、入力音声信号に対して1フレームごとに雑音の検出処理が行われ、必要に応じて補間処理(雑音低減処理)が施された上で、雑音の無い音声信号がフレーム単位で出力される。
Thereafter, until the imaging and recording operations by the
[1.5.効果]
以上、本開示の第1の実施形態に係る音声信号処理装置100の構成と、これを用いた音声信号処理方法について説明した。本実施形態によれば、マイクロホン51から入力されて入出力用バッファメモリ120に蓄積中のフレームの音声信号s(n)に雑音が検出された時点で直ちに、予め補間用バッファメモリ130に保存されている1フレーム分過去の音声信号s(n−1)のみを用いて補間信号v(n)を生成する。そして、当該補間信号v(n)を用いて、雑音区間の音声信号s(n)を補間して、補間後の音声信号を出力する。
[1.5. effect]
The configuration of the audio
これにより、音声信号の入出力に用いるバッファメモリを補間処理にも有効活用することができるので、補間信号の推定に必要なバッファメモリ長を短くでき、装置全体で必要なバッファメモリを削減できる。つまり、入出力用バッファメモリ120、補間用バッファメモリ130のメモリ長は、それぞれ1フレームのサンプルデータ数Nでよいので、装置全体で必要なバッファメモリ長は2*Nで済む。上記従来の補間方法(図1参照。)では、雑音区間の前後の信号を用いて補間するため、少なくとも3*Nのバッファメモリ長が必要であった。これに対し、本実施形態では、バッファメモリ長は2*Nでよく、補間処理に必要なバッファメモリを大幅に削減できる。
As a result, the buffer memory used for input / output of the audio signal can be effectively used for the interpolation processing, so that the buffer memory length necessary for estimating the interpolation signal can be shortened, and the buffer memory necessary for the entire apparatus can be reduced. That is, the memory lengths of the input /
なお、上述したように、雑音区間の前後に、様々な音が混ざり合った非周期的な音声が存在する場合は、雑音区間の補間前後の周期を揃える必要がなく、違和感のある音の発生が起こりにくい。従って、雑音区間の前のフレームの音声信号のみを使って補間した場合であっても、実質的には好適な雑音除去が可能となる。 In addition, as described above, when there is aperiodic speech in which various sounds are mixed before and after the noise section, it is not necessary to align the periods before and after the interpolation of the noise section, and the generation of an uncomfortable sound Is unlikely to occur. Therefore, even when interpolation is performed using only the audio signal of the frame preceding the noise section, it is possible to remove noise substantially.
さらに、本実施形態によれば、2つのバッファメモリを有効活用してフレーム単位での音声信号の処理を好適に制御することで、遅延が少ない高品質の雑音低減処理を実現できる。つまり、上記従来の補間方法(図1参照。)では、雑音区間の後のフレームの信号がバッファメモリに蓄積完了するまでに1フレーム分の遅延が生じ、さらにその後に補間信号を生成するために1フレーム分の遅延が生じるので、少なくとも2*N分の遅延(2フレーム分の遅延)が発生していた。 Furthermore, according to the present embodiment, high-quality noise reduction processing with less delay can be realized by effectively controlling processing of an audio signal in units of frames by effectively using two buffer memories. That is, in the above conventional interpolation method (see FIG. 1), a delay of one frame occurs until the signal of the frame after the noise interval is completely stored in the buffer memory, and further, an interpolation signal is generated thereafter. Since a delay of one frame occurs, a delay of at least 2 * N (a delay of two frames) occurs.
これに対し、本実施形態に係る補間処理では、雑音区間の後のn+1番目のフレームの音声信号s(n+1)を用いずに、雑音区間の前のn−1番目の音声信号s(n−1)のみを用いて補間信号v(n)を生成する。これにより、雑音区間であるn番目のフレームの音声信号s(n)が蓄積完了した時点で直ちに補間処理を実行して、補間後の信号を出力することができ、従来の補間方法のように、雑音区間の後の信号が蓄積されるまで補間処理を待機する必要がない。従って、入力音声に対する出力音声の遅延をゼロにできるので、従来と比べて、補間処理に伴う出力音声の遅延を大幅に低減できる。 In contrast, in the interpolation processing according to the present embodiment, the (n + 1) th audio signal s (n−) before the noise interval is used without using the audio signal s (n + 1) of the (n + 1) th frame after the noise interval. The interpolation signal v (n) is generated using only 1). As a result, the interpolation process can be executed immediately after the accumulation of the audio signal s (n) of the nth frame, which is a noise interval, and the interpolated signal can be output, as in the conventional interpolation method. There is no need to wait for the interpolation process until the signal after the noise interval is accumulated. Accordingly, since the delay of the output sound with respect to the input sound can be made zero, the delay of the output sound accompanying the interpolation process can be greatly reduced as compared with the conventional case.
<2.第2の実施の形態>
次に、本開示の第2の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第2の実施形態に係る音声信号処理装置は、雑音区間の前後の信号を用いて補間信号を生成し、補間処理を行うことを特徴としている。なお、第2の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
<2. Second Embodiment>
Next, an audio signal processing device and an audio signal processing method according to the second embodiment of the present disclosure will be described. The audio signal processing apparatus according to the second embodiment is characterized in that an interpolation signal is generated using signals before and after a noise interval, and interpolation processing is performed. The other functional configuration of the second embodiment is substantially the same as that of the first embodiment, and a detailed description thereof will be omitted.
[2.1.機械音低減方法の概要]
まず、第2の実施形態に係る機械音低減方法の概要について説明する。上述した第1の実施形態では雑音区間の前の区間(n−1番目のフレーム)の音声信号のみを用いて補間信号を生成した。これに対し、第2の実施形態では、雑音区間の前の区間(n−1番目のフレーム)の音声信号のみならず、雑音区間の後の区間(n+1番目のフレーム)の音声信号をも用いて補間信号を生成して、補間処理を行う。
[2.1. Outline of mechanical noise reduction method]
First, an outline of the mechanical sound reduction method according to the second embodiment will be described. In the first embodiment described above, the interpolation signal is generated using only the audio signal in the section (n−1th frame) before the noise section. On the other hand, in the second embodiment, not only the voice signal in the section (n−1th frame) before the noise section but also the voice signal in the section (n + 1th frame) after the noise section is used. To generate an interpolation signal and perform an interpolation process.
詳細には、n番目のフレームの音声信号に雑音が検出された場合、n−1番目のフレームの音声信号から第1の仮補間信号(前部仮補間信号)を生成するとともに、n+1番目のフレームの音声信号から第2の仮補間信号(後部仮補間信号)を生成する。そして、第1の仮補間信号と第2の仮補間信号を合成して補間信号を生成し、当該補間信号を用いて、雑音区間であるn番目のフレームの音声信号を補間する。 Specifically, when noise is detected in the audio signal of the nth frame, a first temporary interpolation signal (front temporary interpolation signal) is generated from the audio signal of the (n−1) th frame, and the n + 1th frame. A second temporary interpolation signal (rear temporary interpolation signal) is generated from the audio signal of the frame. Then, the first temporary interpolation signal and the second temporary interpolation signal are combined to generate an interpolation signal, and the nth frame audio signal, which is a noise interval, is interpolated using the interpolation signal.
かかる補間処理により、第1の実施形態と比べて、入力音声に対して出力音声に1フレーム分の遅延が生じるものの、雑音区間の前後の信号を用いて補間信号を生成することによって、補間信号を高精度で推定できる。従って、より高品質の雑音低減処理を実現できる。また、2つのバッファメモリを好適に使い分けて効率的に補間信号を生成するので、入力音声に対する出力音声の遅延を最大限抑制し、1フレーム分に抑えることが可能である。以下に、第2の実施形態に係る音声信号処理装置及び方法について詳述する。 Although the interpolation processing causes a delay of one frame in the output sound with respect to the input sound as compared with the first embodiment, the interpolation signal is generated by using the signals before and after the noise interval. Can be estimated with high accuracy. Therefore, higher quality noise reduction processing can be realized. Further, since the interpolation signal is efficiently generated by properly using the two buffer memories, it is possible to suppress the delay of the output sound with respect to the input sound to the maximum and to suppress it to one frame. The audio signal processing apparatus and method according to the second embodiment will be described in detail below.
[2.2.音声信号処理装置の機能構成]
次に、図9を参照して、第2の実施形態に係る音声信号処理装置100の機能構成について説明する。図9は、第2の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
[2.2. Functional configuration of audio signal processing apparatus]
Next, a functional configuration of the audio
図9に示すように、音声信号処理装置100は、信号入力部110と、入力用バッファメモリ122(第1のバッファメモリ)と、出力用バッファメモリ132(第2のバッファメモリ)と、雑音検出部140と、雑音低減部150と、信号出力部160とを備える。また、上記入力用バッファメモリ122、出力用バッファメモリ132、雑音検出部140及び雑音低減部150は、上記図2の音声信号処理部60を構成する。なお、第2の実施形態に係る信号入力部110、雑音検出部140及び信号出力部160は、上記第1の実施形態の場合と実質的に同一の機能構成を有するので、詳細説明は省略する。
As shown in FIG. 9, the audio
第2の実施形態に係る音声信号処理装置100は、入力用バッファメモリ122と、出力用バッファメモリ132という2つのバッファメモリを具備している。これらバッファメモリは、マイクロホンから入力された音声信号や、生成した補間信号を一時保存する信号保持部として機能する。そして、第2の実施形態では、入力用バッファメモリ122と出力用バッファメモリ132は、信号入力部110と信号出力部160との間に直列に接続されている。
The audio
音声信号処理装置100が音声信号をフレーム単位で入出力及び処理するために、入力用バッファメモリ122は、現在入力される音声信号の1フレーム分を一時保存し、出力用バッファメモリ132は、過去に入力された音声信号の1フレーム分を一時保存する。これら2つのバッファメモリのメモリ長は同一であり、例えば、それぞれのバッファメモリが、1フレーム分のデジタル音声信号(サンプルデータ数N)を保存可能である。従って、音声信号処理装置100が備えるバッファメモリの長さは、2*Nとなる。なお、入力用バッファメモリ122及び出力用バッファメモリ132は、物理的に分離された2つのバッファメモリで構成されてもよいし、物理的に1つのバッファメモリの記憶領域を分離することで構成されてもよい。
In order for the audio
入力用バッファメモリ122は、信号入力部110から入力された音声信号を、所定区間ごとに(例えば、1フレームずつ)一時保存する。この入力用バッファメモリ122は、入力される音声信号の1フレーム分全てを保存完了した時点で、当該1フレームの音声信号を出力する。
The
入力用バッファメモリ122から出力された1フレームの音声信号は、出力用バッファメモリ132に一時保存される。つまり、出力用バッファメモリ132は、入力用バッファメモリ122に保存されている現在のフレームの音声信号(n番目のフレームの音声信号)よりも1つ前の過去のフレームの音声信号(n−1番目のフレームの音声信号)を一時保存する。従って、信号入力部110から入力されるn番目のフレームの音声信号が、入力用バッファメモリ122に蓄積されている最中には、出力用バッファメモリ132にn−1番目のフレームの音声信号が保存されていることになる。この出力用バッファメモリ132は、入力用バッファメモリ122から入力される音声信号の1フレーム分の保存を完了した時点で、当該1フレームの音声信号を信号出力部160に出力する。
One frame of the audio signal output from the
これにより、信号入力部110から入力された音声信号は、1フレームずつ順次、入力用バッファメモリ122、出力用バッファメモリ132にそれぞれ一時保存された後に、信号出力部160に出力される。これら2つのバッファメモリにより、常時、2フレーム分の音声信号が音声信号処理装置100内に保持される。
Thus, the audio signal input from the
次に、第2の実施形態に係る雑音低減部150について説明する。雑音低減部150は、補間信号生成部152と、信号補間部154と、第1の仮補間信号生成部156と、第2の仮補間信号生成部157とを備える。
Next, the
雑音検出部140によりn番目のフレームの音声信号に雑音が検出された場合、第1の仮補間信号生成部156は、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号から第1の仮補間信号を生成する。第1の仮補間信号は、雑音区間の前の区間の入力音声信号から生成される仮の補間信号である。このように、第1の仮補間信号生成部156は、雑音区間(n番目のフレーム)が入力用バッファメモリ122に保存された直後に、雑音区間の前の区間(n−1番目のフレーム)の音声信号から、雑音区間(n番目のフレーム)を補間するための第1の仮補間信号を生成する。
When noise is detected in the audio signal of the nth frame by the
その後、n+1番目のフレームの音声信号が入力用バッファメモリ122に保存されたときに、第2の仮補間信号生成部157は、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号から第2の仮補間信号を生成する。第2の仮補間信号は、雑音区間の後の区間の入力音声信号から生成される仮の補間信号である。このように、第2の仮補間信号生成部156は、雑音区間(n番目のフレーム)が出力用バッファメモリ132に保存された直後に、雑音区間の後の区間(n+1番目のフレーム)の音声信号から、雑音区間(n番目のフレーム)を補間するための第2の仮補間信号を生成する。
Thereafter, when the audio signal of the (n + 1) th frame is stored in the
そして、補間信号生成部152は、上記第1及び第2の仮補間信号から補間信号を生成する。信号補間部154は、上記補間信号生成部152により生成された補間信号を用いて、出力用バッファメモリ132に保存されているn番目のフレームの音声信号(雑音区間の音声信号)を補間する。
Then, the interpolation
例えば、信号補間部154は、出力用バッファメモリ132に保存されている雑音区間の音声信号の全ての振幅値(つまり、N個のサンプルデータ)をゼロにした後に、上記補間信号をそのまま上書きすることによって、補間処理を実行してもよい。この補間処理により、雑音を含むn番目の区間の音声信号が補間信号に置換されて出力される。或いは、信号補間部154は、出力用バッファメモリ132に保存されている雑音区間の音声信号と、補間信号を適当な混合比で合成することで、補間処理を実行してもよい。かかる信号補間部154による補間処理により、入力された雑音区間の音声信号に換えて、補間信号で補間された音声信号が出力されるようになるので、当該雑音区間に含まれる雑音を低減・除去することができる。
For example, the
ここで、上記仮補間信号及び補間信号の生成方法の例について説明する。 Here, an example of the temporary interpolation signal and the method of generating the interpolation signal will be described.
(a)シンプルな生成方法
n番目のフレームが雑音区間である場合、例えば、上記図4又は図5に示した補間信号の生成方法と同様にして、n−1番目のフレームの入力音声信号s(n−1)から第1の仮補間信号p(n)を生成し、n+1番目のフレームの入力音声信号s(n+1)から第2の仮補間信号q(n)を生成する。そして、以下の式(1)に示すように、第1の仮補間信号p(n)と第2の仮補間信号q(n)を所定の混合計数α(0<α<1)を用いて混合することで、補間信号v(n)を生成する。
(A) Simple generation method When the n-th frame is a noise section, for example, in the same manner as the interpolation signal generation method shown in FIG. 4 or FIG. A first temporary interpolation signal p (n) is generated from (n−1), and a second temporary interpolation signal q (n) is generated from the input speech signal s (n + 1) of the (n + 1) th frame. Then, as shown in the following formula (1), the first temporary interpolation signal p (n) and the second temporary interpolation signal q (n) are used with a predetermined mixing count α (0 <α <1). By mixing, the interpolation signal v (n) is generated.
v(n)=α・p(n)+(1−α)・q(n) ・・・(1) v (n) = α · p (n) + (1−α) · q (n) (1)
例えば、α=0.5とすることで、第1の仮補間信号p(n)と第2の仮補間信号q(n)を均等に混合して、補間信号v(n)を生成できる。また、p(n)又はq(n)の重み付けを偏らせたいときには、αの数値を調整すればよい。上記のような生成方法により、雑音区間の前後の区間の音声信号を用いて、補間精度の高い補間信号v(n)を生成できる。 For example, by setting α = 0.5, the first temporary interpolation signal p (n) and the second temporary interpolation signal q (n) can be evenly mixed to generate the interpolation signal v (n). Further, when it is desired to bias the weighting of p (n) or q (n), the numerical value of α may be adjusted. With the generation method as described above, it is possible to generate an interpolation signal v (n) with high interpolation accuracy using the audio signals in the sections before and after the noise section.
(b)窓を用いた生成方法
また、図10は、本実施形態に係る雑音区間の前後の入力音声信号から仮補間信号及び補間信号を生成する別の方法を示す概念図である。
(B) Generation Method Using Window FIG. 10 is a conceptual diagram showing another method for generating a temporary interpolation signal and an interpolation signal from input speech signals before and after the noise interval according to this embodiment.
上記図4又は図5に示した補間信号の生成方法と同様にして、n−1番目のフレームの入力音声信号s(n−1)から第1の仮補間信号p(n)を生成し、n+1番目のフレームの入力音声信号s(n+1)から第2の仮補間信号q(n)を生成する。そして、図10に示すように、上記のように生成した第1の仮補間信号p(n)と第2の仮補間信号q(n)を、ハニング窓又はバートレット窓等の任意の窓w1(n)、w2(n)を用いて混合する。具体的には、まず、仮補間信号p(n)、q(n)にそれぞれ窓w1(n)、w2(n)を乗算して、信号t(n)、信号u(n)を生成する。次いで、信号t(n)と信号u(n)を合成して補間信号v(n)を生成する。例えば、信号t(n)と信号u(n)を加算して、補間信号v(n)=p(n)+q(n)を生成してもよいし、或いは、信号p(n)から信号q(n)を減算して、補間信号v(n)=p(n)−q(n)を生成してもよい。このような方法により、仮補間信号p(n)、q(n)から、より自然な補間信号v(n)を生成することが可能である。 In the same manner as the interpolation signal generation method shown in FIG. 4 or FIG. 5, the first temporary interpolation signal p (n) is generated from the input audio signal s (n−1) of the (n−1) th frame, A second temporary interpolation signal q (n) is generated from the input audio signal s (n + 1) of the (n + 1) th frame. Then, as shown in FIG. 10, the first temporary interpolation signal p (n) and the second temporary interpolation signal q (n) generated as described above are converted into an arbitrary window w 1 such as a Hanning window or a Bartlett window. Mix using (n), w 2 (n). Specifically, first, the temporary interpolation signals p (n) and q (n) are multiplied by the windows w 1 (n) and w 2 (n), respectively, to obtain the signals t (n) and u (n). Generate. Next, the signal t (n) and the signal u (n) are combined to generate an interpolation signal v (n). For example, the signal t (n) and the signal u (n) may be added to generate the interpolation signal v (n) = p (n) + q (n), or the signal p (n) The interpolated signal v (n) = p (n) −q (n) may be generated by subtracting q (n). By such a method, it is possible to generate a more natural interpolation signal v (n) from the temporary interpolation signals p (n) and q (n).
[2.3.音声信号処理装置の動作]
次に、第2の実施形態に係る音声信号処理装置100の動作について説明する。以下では、雑音がない通常時の動作例と、雑音発生時の動作例についてそれぞれ説明する。
[2.3. Operation of audio signal processing apparatus]
Next, the operation of the audio
[2.3.1.雑音がない通常時の動作例]
まず、図11を参照して、雑音がない通常時の音声信号処理装置100の動作について説明する。図11は、第2の実施形態に係る音声信号処理装置100の通常時の動作を示す模式図である。
[2.3.1. Example of normal operation without noise]
First, with reference to FIG. 11, the operation of the audio
図11に示すように、雑音が発生していない通常時には、マイクロホン51から入力された音声信号は、フレーム単位で順次、入力用バッファメモリ122、出力用バッファメモリ132に一時保存される。出力用バッファメモリ132に保存されるフレームの音声信号は、入力用バッファメモリ122に現在蓄積されているフレームの音声信号よりも1つ前(過去)のフレームである。例えば、図11Aに示すように、現在、n番目のフレームの音声信号が新たに入力されて、入力用バッファメモリ122に蓄積されているときには、1フレーム分だけ過去に入力されたn−1番目のフレームの音声信号s(n−1)が出力用バッファメモリ132に保存されている。
As shown in FIG. 11, during normal times when noise is not generated, the audio signal input from the
そして、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了された時に直ちに、図11Bに示すように、出力用バッファメモリ132に保存されているn番目のフレームの音声信号s(n)が外部に出力される。このとき、雑音は検出されていないので、n−1番目のフレームの音声信号s(n−1)がそのまま出力される。また、当該音声信号s(n−1)の出力とともに、入力用バッファメモリ122に保存されているn番目のフレームの音声信号s(n)が、出力用バッファメモリ132にコピーされ、入力用バッファメモリ122内のデータが消去される。これは、次に入力されるn+1番目のフレームの音声信号s(n+1)に雑音が検出された場合に、出力用バッファメモリ132内のn番目のフレームの音声信号s(n)から、n+1番目のフレーム用の補間信号v(n+1)を生成するためである。
Then, as soon as all the audio signals s (n) of the nth frame have been accumulated in the
その後、n+1番目のフレームの音声信号s(n+1)が新たに入力され、当該n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了された時に直ちに、n番目のフレームの音声信号s(n)が出力用バッファメモリ132から出力される。このため、入力音声に対して出力音声が1フレーム分だけ遅延することになる(遅延量はN)。
Thereafter, when the audio signal s (n + 1) of the (n + 1) th frame is newly input and all the audio signals s (n + 1) of the (n + 1) th frame are completely accumulated in the
[2.3.2.雑音発生時の動作例]
次に、図12、図13を参照して、雑音発生時の音声信号処理装置100の動作について説明する。図12、図13は、本実施形態に係る音声信号処理装置100の雑音発生時の動作例を示す模式図である。
[2.3.2. Example of operation when noise occurs]
Next, the operation of the audio
図12に示すように、入力される音声信号に雑音(例えばパルス機械音)が含まれる場合であっても、マイクロホン51から入力された音声信号は、フレーム単位で順次、入力用バッファメモリ122、出力用バッファメモリ132に一時保存される。図12Aに示すように、雑音が含まれるn番目のフレームの音声信号s(n)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、1フレーム分だけ過去のn−1番目のフレームの音声信号s(n−1)が出力用バッファメモリ132に一時保存されている。
As shown in FIG. 12, even when noise (for example, pulse mechanical sound) is included in the input audio signal, the audio signal input from the
そして、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了し、かつ、当該音声信号s(n)に雑音が含まれることが検出されたときには、図12Bに示す第1の仮補間信号の生成処理が直ちに実行される。つまり、第1の仮補間信号生成部156は、図12Bに示すように、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号s(n−1)から、雑音区間(n番目のフレーム)の音声信号s(n)を補間するための第1の仮補間信号p(n)を生成する。図12Bの例では、n−1番目のフレームの音声信号s(n−1)を時間軸方向に反転させることにより、第1の仮補間信号p(n)が生成されている。そして、第1の仮補間信号生成部156は、出力用バッファメモリ132に保存されているn番目のフレームの音声信号s(n)を削除して、上記第1の仮補間信号p(n)を出力用バッファメモリ132に保存する。
When it is detected that all of the audio signal s (n) of the nth frame has been accumulated in the
次いで、図12Cに示すように、信号補間部154は、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号s(n−1)を外部に出力する。さらに、信号補間部154は、上記音声信号s(n−1)の出力とともに、入力用バッファメモリ122に保存されている第1の仮補間信号p(n)を、出力用バッファメモリ132に移動させる。これは、出力用バッファメモリ132に第1の仮補間信号p(n)を保存しておき、次にn+1番目のフレームの音声信号s(n+1)が入力されたときに仮補間信号p(n)を用いて補間信号v(n)を生成するためである。
Next, as illustrated in FIG. 12C, the
次いで、図13Aに示すように、次のn+1番目のフレームの音声信号s(n+1)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、上記第1の仮補間信号p(n)が出力用バッファメモリ132に一時保存されている。
Next, as shown in FIG. 13A, when the audio signal s (n + 1) of the next (n + 1) th frame is newly input and stored in the
そして、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには、図13Bに示す第2の仮補間信号の生成処理、及び補間信号の生成処理が直ちに実行される。つまり、第2の仮補間信号生成部157は、図13Bに示すように、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)から、雑音区間(n番目のフレーム)の音声信号s(n)を補間するための第2の仮補間信号q(n)を生成する。そして、補間信号生成部152は、図13Bに示すように、生成された第2の仮補間信号q(n)と、出力用バッファメモリ132に保存されている第1の仮補間信号p(n)とを合成して、補間信号v(n)を生成する。
When all of the audio signal s (n + 1) of the (n + 1) th frame has been accumulated in the
次いで、図13Cに示すように、上記補間信号v(n)の生成後直ちに、信号補間部154は、図12Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて、上記補間信号v(n)を外部に出力する。さらに、信号補間部154は、上記補間信号v(n)の出力とともに、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)を、出力用バッファメモリ132に移動させる。これは、次に入力されるn+2番目のフレームの音声信号s(n+2)が入力用バッファメモリ122に蓄積完了した時点で、出力用バッファメモリ132から音声信号s(n+1)を出力するためである。また、次に入力されるn+2番目のフレームの音声信号s(n+2)に雑音が検出された場合には、出力用バッファメモリ132内の音声信号s(n+1)から、n+2番目のフレーム用の第1の仮補間信号p(n+1)を生成することもできる。
Next, as shown in FIG. 13C, immediately after the generation of the interpolation signal v (n), the
以上のように、本実施形態によれば、n番目のフレームの音声信号s(n)に雑音が含まれる場合には、当該雑音を低減するために、n−1番目及びn+1番目のフレームの音声信号s(n−1)、s(n+1)を利用して補間信号v(n)を生成して、補間処理が実行される。この補間処理により、当該雑音を含むn番目のフレームの入力音声信号s(n)に換えて、雑音を含まない補間信号v(n)が外部に出力されるので、雑音を好適に除去できる。さらに、雑音区間の前後の音声信号を用いて補間するので、より自然で高精度な補間処理を実行できるので、高品質の雑音低減を実現できる。 As described above, according to the present embodiment, when noise is included in the audio signal s (n) of the nth frame, in order to reduce the noise, the n−1th and n + 1th frames The interpolation signal v (n) is generated using the audio signals s (n−1) and s (n + 1), and the interpolation process is executed. By this interpolation processing, the interpolation signal v (n) not including noise is output to the outside instead of the input speech signal s (n) of the nth frame including the noise, so that noise can be suitably removed. Furthermore, since interpolation is performed using audio signals before and after the noise section, more natural and highly accurate interpolation processing can be executed, so that high-quality noise reduction can be realized.
また、上記のようにフレーム単位で音声信号を入出力して補間処理する場合、入力用バッファメモリ122及び出力用バッファメモリ132のメモリ長はそれぞれ、1フレームのサンプルデータ数Nでよい。従って、第1の実施形態同様に、装置全体で必要なバッファメモリ長は2*Nで済む。また、入力用バッファメモリ122に対して次のフレームの音声信号s(n+1)が蓄積完了した時点で直ちに、1つ前のフレームの音声信号s(n)が外部に出力されるので、入力音声に対する出力音声の遅延は1フレーム分で済む。
Further, in the case where the audio signal is input / output in units of frames as described above and the interpolation processing is performed, the memory lengths of the
[2.4.音声信号処理方法]
次に、図14を参照して、上記の音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図14は、第2の実施形態に係る音声信号処理方法を示すフローチャートである。
[2.4. Audio signal processing method]
Next, an audio signal processing method (mechanical sound reduction method) using the audio
図14に示すように、まず、音声信号処理装置100は、マイクロホン51から入力される1フレーム分の音声信号が入力用バッファメモリ122に蓄積されたか否かを判定する(S200)。ここでは、現在、n番目のフレームの音声信号s(n)が入力中である場合の処理について説明する。S200の判定の結果、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、雑音検出部140は、当該音声信号s(n)に雑音が含まれるか否かを検出する(S202)。
As shown in FIG. 14, first, the audio
S202の判定の結果、雑音が検出された場合には直ちに、図12に示した第1の仮補間信号の生成処理が実行される。即ち、第1の仮補間信号生成部156は、出力用バッファメモリ132に保存されているn−1番目のフレーム(1フレーム分過去)の音声信号s(n−1)を用いて、第1の仮補間信号p(n)を生成する(S204)。そして、第1の仮補間信号生成部156は、出力用バッファメモリ132からn−1番目のフレームの音声信号s(n−1)をそのまま信号出力部160に出力するとともに、第1の仮補間信号p(n)を出力用バッファメモリ132に保存する(S206)。
If noise is detected as a result of the determination in S202, the first temporary interpolation signal generation process shown in FIG. 12 is immediately executed. That is, the first temporary interpolation
次いで、新たに入力されたn+1番目のフレームの音声信号s(n+1)を入力用バッファメモリ122に蓄積し、当該音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したか否を判定する(S210)。この結果、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、図13に示した第2の仮補間信号の生成処理及び補間処理が実行される。
Next, the newly input audio signal s (n + 1) of the (n + 1) th frame is accumulated in the
即ち、第2の仮補間信号生成部157は、入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)を用いて、第2の仮補間信号q(n)を生成する(S214)。そして、補間信号生成部152は、出力用バッファメモリ132に保存されている第1の仮補間信号p(n)と、S214で生成された第2の仮補間信号q(n)から、補間信号v(n)を生成する(S216)。さらに、信号補間部154は、S216で生成された補間信号v(n)を用いて、雑音を含むn番目のフレームの音声信号s(n)を補間し、補間後の信号を出力用バッファメモリ132に保存する(S218)。このS218の補間処理では、雑音を含むn番目のフレームの音声信号s(n)を補間信号v(n)に置換してもよいし、当該音声信号s(n)と補間信号v(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
That is, the second temporary interpolation
その後、信号補間部154は、n番目のフレームの音声信号s(n)に換えて、S218で出力用バッファメモリ132に保存された補間信号v(n)を、信号出力部160に出力する(S220)。そして、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
Thereafter, the
一方、上記S202の雑音判定の結果、n番目のフレームの音声信号s(n)に雑音が検出されない場合は、上記のような補間処理を行わず、通常の入出力処理を行う。即ち、図11に示したように、出力用バッファメモリ132からn−1番目のフレームの音声信号s(n−1)をそのまま信号出力部160出力し、入力用バッファメモリ122に保存されたn番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる(S208)。そして、次のn+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときに(S210)、出力用バッファメモリ132からn番目のフレームの音声信号s(n)をそのまま信号出力部160に出力し(S220)、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
On the other hand, if no noise is detected in the sound signal s (n) of the nth frame as a result of the noise determination in S202, normal input / output processing is performed without performing the above interpolation processing. That is, as shown in FIG. 11, the audio signal s (n−1) of the (n−1) th frame is output from the
その後、デジタルカメラ1による撮像及び録音動作が終了(S222)するまで、入力音声信号の次の1フレームの音声信号s(n+2)に対して、上記S200〜S220の処理が繰り返される。これにより、入力音声信号に対して1フレームごとに雑音の検出処理が行われ、必要に応じて補間処理(雑音低減処理)が施された上で、雑音の無い音声信号がフレーム単位で出力される。
Thereafter, the processes of S200 to S220 are repeated for the audio signal s (n + 2) of the next frame of the input audio signal until the imaging and recording operation by the
[2.5.効果]
以上、本開示の第2の実施形態に係る音声信号処理装置100の構成と、これを用いた音声信号処理方法について説明した。第2の実施形態によれば、雑音区間の前後の音声信号s(n−1)、s(n+1)を用いて補間信号を生成することで、雑音区間の背景音(雑音を除いた外部音声)を適切に表す補間信号を高精度で推定できる。従って、補間処理の精度を高めて、雑音を低減しつつ、背景音を高精度で再現できるので、雑音低減処理の精度を大幅に向上できる。
[2.5. effect]
The configuration of the audio
また、第1の実施形態と同様に、信号の入出力に用いるバッファメモリを、補間処理にも有効活用することで、補間信号の推定に必要なバッファメモリ長を減少でき、装置全体で必要なバッファメモリを削減できる。第2の実施形態でも、補間信号の推定に必要なバッファメモリ長は2*Nで済むので、上記従来の補間方法(図1参照。)が少なくとも3*Nのバッファメモリ長が必要であるのと比べて、補間処理に必要なバッファメモリを大幅に削減できる。 Similarly to the first embodiment, the buffer memory used for signal input / output is also effectively used for interpolation processing, so that the buffer memory length required for interpolation signal estimation can be reduced, which is necessary for the entire apparatus. Buffer memory can be reduced. Also in the second embodiment, the buffer memory length required for estimation of the interpolation signal is only 2 * N. Therefore, the conventional interpolation method (see FIG. 1) requires a buffer memory length of at least 3 * N. Compared to the above, the buffer memory required for the interpolation process can be greatly reduced.
さらに、本実施形態によれば、2つのバッファメモリを有効利用してフレーム単位での音声信号の処理を好適に制御することで、遅延が少ない高品質の雑音低減処理を実現できる。即ち、上記従来の補間方法(図1参照。)では、雑音区間の前後の信号を用いて補間処理するために、上記のように少なくとも2*N分の遅延(2フレーム分の遅延)が発生していた。これに対し、本実施形態によれば、雑音区間の前後の音声信号s(n−1)、s(n+1)を用いて補間信号v(n)を生成するけれども、入力用バッファメモリ122に対する音声信号s(n+1)の蓄積が完了した時点で直ちに補間信号v(n)を生成して出力できる。これにより、入力音声に対する出力音声の遅延を1フレーム分(遅延量:N)に抑えることができるので、補間処理に伴う出力音声の遅延を従来の補間方法よりも半分に低減できる。
Furthermore, according to the present embodiment, high-quality noise reduction processing with less delay can be realized by effectively controlling processing of audio signals in units of frames by effectively using two buffer memories. That is, in the conventional interpolation method (see FIG. 1), since interpolation processing is performed using signals before and after the noise interval, a delay of at least 2 * N (delay of 2 frames) occurs as described above. Was. On the other hand, according to the present embodiment, the interpolated signal v (n) is generated using the audio signals s (n−1) and s (n + 1) before and after the noise section, but the audio to the
<3.第3の実施の形態>
次に、本開示の第3の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第3の実施形態に係る音声信号処理装置は、雑音の開始点、終了点検出した上で、雑音の前後の信号を用いて補間信号を生成し、雑音の開始点から終了点までの信号に対して補間処理を行うことを特徴としている。なお、第3の実施形態のその他の機能構成は、上記第2の実施形態と実質的に同一であるので、その詳細説明は省略する。
<3. Third Embodiment>
Next, an audio signal processing device and an audio signal processing method according to the third embodiment of the present disclosure will be described. The audio signal processing apparatus according to the third embodiment detects a noise start point and an end point, generates an interpolation signal using signals before and after the noise, and generates a signal from the noise start point to the end point. It is characterized in that an interpolation process is performed on it. The remaining functional configuration of the third embodiment is substantially the same as that of the second embodiment, and a detailed description thereof will be omitted.
[3.1.機械音低減方法の概要]
まず、第3の実施形態に係る機械音低減方法の概要について説明する。
[3.1. Outline of mechanical noise reduction method]
First, an outline of the mechanical sound reduction method according to the third embodiment will be described.
上述した第1、2の実施形態では、図7等に示すように、パルス機械音等の雑音が音声信号の1フレーム内に収まっていることを前提として、フレーム単位で補間処理を行っていた。しかしながら、実際には、1つの雑音が音声信号の1フレーム内に必ず収まる訳ではなく、図16に示すように1つの雑音が2つのフレームに跨って存在する場合も生じうる。つまり、このような場合には、前述した第1、第2の実施形態に係る補間方法では、雑音を好適に低減することが困難になる。 In the first and second embodiments described above, as shown in FIG. 7 and the like, interpolation processing is performed in units of frames on the assumption that noise such as pulse mechanical sound is within one frame of the audio signal. . However, in practice, one noise does not necessarily fall within one frame of the audio signal, and there may be a case where one noise exists over two frames as shown in FIG. That is, in such a case, it is difficult to suitably reduce noise with the interpolation methods according to the first and second embodiments described above.
そこで、第3の実施形態では、雑音基準点検出部により雑音の基準点を検出することにより、雑音が2つのフレームに跨って存在する場合であっても、その雑音の前後の信号を用いて雑音を効果的に低減するものである。雑音基準点は、音声信号における雑音の位置を示す基準点であり、図16に示すように、雑音開始点PS、雑音中間点PM、雑音終了点PEの3つである。この雑音基準点を検出することにより、フレーム単位以外にも、音声信号の任意の区間で補間処理を実現できる。 Therefore, in the third embodiment, the noise reference point is detected by the noise reference point detection unit, so that even if the noise exists across two frames, the signals before and after the noise are used. Noise is effectively reduced. The noise reference points are reference points indicating the position of noise in the speech signal, and are three noise start points P S , noise intermediate points P M , and noise end points P E as shown in FIG. By detecting this noise reference point, interpolation processing can be realized in an arbitrary section of the audio signal in addition to the frame unit.
ここで、音声信号のフレームの位置と雑音の位置との関係について、より詳細に説明する。音声信号処理のみを考慮した場合には、フレームの位置、即ち、1フレームにおけるサンプルデータ数Nの決め方は任意である。一般的には、音声信号を周波数領域に変換するためにFFT(Fast Fourier Transform)を扱うことが多いため、サンプルデータ数Nとして、2のべき乗である「256」、「512」、「1024」等が広く使用される。ただし、周波数変換を行わない場合にはこの限りではない。 Here, the relationship between the frame position of the audio signal and the noise position will be described in more detail. When only audio signal processing is considered, the position of the frame, that is, how to determine the number N of sample data in one frame is arbitrary. In general, since FFT (Fast Fourier Transform) is often used to convert an audio signal to the frequency domain, the number N of sample data is “256”, “512”, “1024”. Etc. are widely used. However, this is not the case when frequency conversion is not performed.
一方、デジタルカメラ、ビデオカメラ等においては、カメラ内部のシステム制御クロックや映像信号(動画)に対して音声信号の同期をとる必要があるため、音声信号処理のフレームのサンプルデータ数Nを自由に決定することは難しい。ここで、フレームを長くとる(即ち、Nを大きくする)と、カメラシステムの遅延増加につながるため、現実的には、サンプルデータ数Nを100〜2000程度とすることが多い。 On the other hand, in digital cameras, video cameras, etc., it is necessary to synchronize the audio signal with the system control clock and video signal (moving image) inside the camera. It is difficult to decide. Here, taking a long frame (that is, increasing N) leads to an increase in the delay of the camera system. Therefore, in reality, the number N of sample data is often about 100 to 2000.
上記の理由により、パルス機械音の時間長(全体の時間幅)に合わせて、音声信号のフレームのサンプルデータ数Nを任意に決定することは現実には困難である。 For the above reason, it is actually difficult to arbitrarily determine the number N of sample data of the frame of the audio signal in accordance with the time length (total time width) of the pulse mechanical sound.
ところで、一般に、パルス機械音は他の雑音と比べて時間長が短いことを特徴としている。このため、パルス機械音の時間長は、音声信号のフレームのサンプルデータ数Nと同程度、またはそれよりも短いとみなしても問題ない。従って、パルス機械音全体が1フレーム中に収まれば(図7等参照。)、第1、第2の実施形態のような補間処理を問題なく行うことができる。 By the way, in general, a pulse mechanical sound is characterized by a shorter time length than other noises. For this reason, there is no problem even if the time length of the pulse mechanical sound is regarded as being equal to or shorter than the number N of sample data of the frame of the audio signal. Therefore, if the entire pulse mechanical sound is within one frame (see FIG. 7 and the like), the interpolation processing as in the first and second embodiments can be performed without any problem.
しかし、現実には、パルス機械音がフレームの境界からずれて存在し、2つのフレームに跨って存在することの方が多い(図16参照。)。従って、音声信号に設定されたフレームの境界とは別に、パルス機械音の区切り(基準点)を検知した上で、その雑音の区切り位置の前後の信号を用いて、パルス機械音を補間処理することが好ましい。 However, in reality, there are more cases where the pulse mechanical sound is shifted from the boundary of the frame and exists across two frames (see FIG. 16). Therefore, apart from the frame boundaries set in the audio signal, a pulse mechanical sound break (reference point) is detected, and the pulse mechanical sound is interpolated using signals before and after the noise break position. It is preferable.
そこで第3の実施形態では、雑音(例えばパルス機械音)を含む音声信号のフレームが入力されたときに、当該雑音の基準点(雑音開始点PS、雑音中間点PM及び雑音終了点PE)を検出し、フレームとは無関係に雑音区間を特定する。そして、雑音開始点PSよりも前の信号から、前部補間信号(第1の補間信号)を生成し、当該前部補間信号を用いて雑音の前半部分(雑音開始点PSから雑音中間点PMまでの区間)を補間する。さらに、次のフレームが入力したときに、雑音終了点PEよりも後の信号から後部補間信号(第2の補間信号)を生成し、当該後部補間信号を用いて雑音の後半部分(雑音中間点PMから雑音終了点PEまでの区間)を補間する。 Therefore, in the third embodiment, when a frame of an audio signal including noise (for example, pulse mechanical sound) is input, the noise reference point (noise start point P S , noise intermediate point P M, and noise end point P). E )) is detected, and the noise interval is specified regardless of the frame. Then, from the previous signal than noise start point P S, it generates a front interpolation signal (first interpolation signal), noise intermediate from the first half (noise start point P S noise by using the front interpolation signal interpolating the section) to the point P M. Further, when the next frame is input, it generates a rear interpolation signal (second interpolation signal) from the signal after the noise end point P E, the latter part of the noise using the posterior interpolation signal (noise intermediate interpolating the interval) from the point P M until the noise end point P E.
かかる補間処理により、雑音が音声信号の複数フレームに跨って存在する場合であっても、フレーム境界は関わらずに、当該雑音の前後の任意の区間の音声信号を用いて補間処理を行うことができるので、当該雑音を適切に低減することができる。以下に、第3の実施形態に係る音声信号処理装置及び方法について詳述する。 By such interpolation processing, even when noise exists over a plurality of frames of the audio signal, the interpolation processing can be performed using the audio signal in an arbitrary section before and after the noise regardless of the frame boundary. Therefore, the noise can be appropriately reduced. The audio signal processing apparatus and method according to the third embodiment will be described in detail below.
[3.2.音声信号処理装置の機能構成]
次に、図15を参照して、第3の実施形態に係る音声信号処理装置100の機能構成について説明する。図15は、第3の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
[3.2. Functional configuration of audio signal processing apparatus]
Next, a functional configuration of the audio
図15に示すように、音声信号処理装置100は、信号入力部110と、入力用バッファメモリ122(第1のバッファメモリ)と、出力用バッファメモリ132(第2のバッファメモリ)と、雑音検出部140と、雑音基準点検出部142と、雑音低減部150と、信号出力部160とを備える。また、上記入力用バッファメモリ122、出力用バッファメモリ132、雑音検出部140、雑音基準点検出部142及び雑音低減部150は、上記図2の音声信号処理部60を構成する。なお、第3の実施形態に係る信号入力部110、入力用バッファメモリ122、出力用バッファメモリ132、雑音検出部140及び信号出力部160は、上記第2の実施形態の場合と実質的に同一の機能構成を有するので、詳細説明は省略する。
As shown in FIG. 15, the audio
第3の実施形態に係る音声信号処理装置100は、雑音基準点検出部142を更に備えることを特徴としている。雑音基準点検出部142は、音声信号に含まれる雑音の信号特性に基づいて、音声信号に含まれる雑音(パルス機械音)の基準点(雑音開始点PS、雑音中間点PM及び雑音終了点PE)を検出する。図16に示すように、雑音開始点PSは、音声信号においてパルス機械音が開始する位置である。また、雑音中間点PMは、音声信号においてパルス機械音の中間の位置(例えばパルス成分の振幅が最大となる位置)である。さらに、雑音終了点PEは、音声信号においてパルス機械音が終了する位置である。雑音基準点検出部142によるこれら基準点の検出方法は、例えば以下の通りである。
The audio
まず、雑音基準点検出部142は、雑音中間点PMを検出する。雑音中間点PMの検出方法としては、例えば以下の(a)〜(c)が例示される。
First, the noise reference
(a)振幅最大値を利用
パルス機械音の振幅の絶対値の最大値が存在する位置を、雑音中間点PMとしてもよい。図16に示すように、パルス機械音は、パルス成分と残響成分を含み、パルス成分のパルスのピーク(振幅最大値)は概ねパルス機械音の中間点と一致する。従って、パルス機械音の振幅の絶対値が最大となる位置が、雑音中間点PMであると推定することができる。
(A) a position where the maximum value exists in the absolute value of the amplitude of the maximum amplitude available pulsed mechanical sound may be a noise midpoint P M. As shown in FIG. 16, the pulse mechanical sound includes a pulse component and a reverberation component, and the pulse peak (maximum amplitude value) of the pulse component substantially coincides with the intermediate point of the pulse mechanical sound. Therefore, the absolute value of the amplitude of the pulsed mechanical sound becomes maximum position can be estimated to be the noise midpoint P M.
(b)雑音区間情報を利用
また、雑音検出部140から雑音区間情報を取得した時から一定時間が経過した時点の位置を雑音中間点PMとしてもよい。雑音検出部140は、雑音が含まれる区間を表す雑音区間情報を生成し、雑音基準点検出部142に出力することができる。この雑音区間情報は、上述した雑音検出処理により生成されてもよいし、又は、パルス機械音を発生する駆動装置14の制御情報に基づいて生成されてもよい。
(B) noise interval information utilizing also the may be noise midpoint P M the position when a certain time has elapsed from when obtaining the noise section information from the
(c)信号の傾きの変化値を利用
また、雑音検出部140からパルス機械音の信号の傾きが急峻に変化した直後の変化点の位置を雑音中間点PMとしてもよい。パルス機械音のパルス成分は振幅が急峻に変化するので、この急峻な変化の直後に、振幅の微分値がゼロとなる位置はパルス成分のピークを示す。従って、当該振幅の微分値の変化点の位置が、雑音中間点PMであると推定することができる。
Utilizing the inclination of the change value of (c) signal also the position of the change point immediately after the tilt of the pulsed mechanical sound signal from the
次に、雑音基準点検出部142は、雑音開始点PSを検出する。雑音開始点PSの検出方法としては、例えば以下の(a)、(b)が例示される。
Next, the noise reference
(a)信号エネルギーを利用
雑音中間点PMよりも前の音声信号において信号エネルギーが閾値よりも低下する点を、雑音開始点PSとしてもよい。図16に示すように、一般に、パルス機械音は背景音よりも振幅が大きいため、パルス機械音が存在する部分の信号エネルギーは、背景音のみが存在する部分の信号エネルギーよりも大きくなる。従って、上記検出された雑音中間点PMよりも時間的に前の音声信号において、信号エネルギーが所定の閾値以下となる点が、雑音開始点PSであると推定することができる。
(A) Use of signal energy The point where the signal energy falls below the threshold in the audio signal before the noise intermediate point P M may be set as the noise start point P S. As shown in FIG. 16, since the pulse mechanical sound generally has a larger amplitude than the background sound, the signal energy of the portion where the pulse mechanical sound exists is larger than the signal energy of the portion where only the background sound exists. Therefore, it can be estimated that the point where the signal energy is equal to or lower than the predetermined threshold in the audio signal temporally before the detected noise intermediate point P M is the noise start point P S.
(b)予め設定されたサンプルデータ数を利用
また、予め設定されたサンプルデータ数だけ雑音中間点PMよりも前の点を、雑音開始点PSとしてもよい。事前にパルス機械音の時間幅を測定し、雑音中間点PMと雑音開始点PSとの差分を予め求めておくことで、当該差分を表すサンプルデータ数をパラメータとして設定しておけばよい。このパラメータを用いて、雑音中間点PMから雑音開始点PSを推定できる。
(B) The pre-use set number of sample data, the point before the preset sample data number only noise midpoint P M, may be a noise start point P S. The time width of the pulse mechanical sound is measured in advance, and the difference between the noise intermediate point P M and the noise start point P S is obtained in advance, and the number of sample data representing the difference may be set as a parameter. . Using this parameter can be estimated noise start point P S from the noise midpoint P M.
さらに、雑音基準点検出部142は、雑音終了点PEを検出する。雑音終了点PEの検出方法は、上記の雑音開始点PSの検出方法と同様である。ただし、雑音中間点PMよりも前の信号ではなく、雑音中間点PMよりも後の信号において雑音終了点PEが検出される。
Furthermore, noise reference
以上のようにして、雑音基準点検出部142は、入力音声信号の雑音区間における実際の雑音の基準点を検出する。この雑音の基準点のうち雑音開始点PSから雑音終了点PEまでが、実際の雑音の範囲を表す。雑音開始点PS及び雑音終了点PEは、音声信号における雑音と背景音との区切り位置となる。
As described above, the noise reference
次に、第3の実施形態に係る雑音低減部150について説明する。雑音低減部150は、補間信号生成部152と、信号補間部154を備える。そして、補間信号生成部152は、前部補間信号生成部158(第1の補間信号生成部)と、後部補間信号生成部159(第1の補間信号生成部)を備えることを特徴としている。
Next, the
雑音検出部140によりn番目のフレームの音声信号に雑音が検出された場合、前部補間信号生成部158は、上記雑音開始点PSよりも前の所定区間の音声信号を用いて、雑音の前半部分を補間するための前部補間信号(第1の補間信号)を生成する。例えば、前部補間信号生成部158は、n−1番目、n番目のフレームの音声信号のうち雑音開始点PSよりも前の音声信号において、雑音開始点PSと雑音中間点PMとの間の長さに相当する分だけ雑音開始点PSよりも前に位置する区間の音声信号から、前部補間信号を生成する。
If the noise in the audio signal of the n-th frame by the
その後、n+1番目のフレームの音声信号が入力用バッファメモリ122に保存されたときに、後部補間信号生成部159は、上記雑音終了点PEよりも後の所定区間の音声信号を用いて、雑音の後半部分を補間するための後部補間信号(第2の補間信号)を生成する。例えば、後部補間信号生成部159は、n番目、n+1番目のフレームの音声信号のうち雑音終了点PEよりも後の音声信号において、雑音中間点PMと雑音終了点PEとの間の長さに相当する分だけ雑音終了点PEよりも後に位置する区間の音声信号から、後部補間信号を生成する。
Then, when the n + 1-th frame of the speech signal is stored in the
このように、第3の実施形態では、第2の実施形態のようにフレームを基準として補間信号を生成するのではなく、上記雑音基準点によって特定される区間を基準として前部補間信号及び後部補間信号を生成する。これら前部補間信号及び後部補間信号の生成方法の詳細は後述する。 As described above, in the third embodiment, the interpolation signal is not generated on the basis of the frame as in the second embodiment, but the front interpolation signal and the rear portion are based on the section specified by the noise reference point. Generate an interpolation signal. Details of the method of generating these front interpolation signal and rear interpolation signal will be described later.
そして、信号補間部154は、上記前部補間信号生成部158により生成された前部補間信号を用いて、n−1番目及び/又はn番目のフレームの音声信号に含まれる雑音の前半部分を補間する。さらに、信号補間部154は、上記後部補間信号生成部159により生成された後部補間信号を用いて、n番目及び/又はn+1番目のフレームの音声信号に含まれる雑音の後半部分を補間する。
Then, the
例えば、信号補間部154は、音声信号に含まれる雑音の前半部分を前部補間信号で置換し、当該雑音の後半部分を後部補間信号で置換してもよい。或いは、信号補間部154は、音声信号に含まれる雑音の前半部分と前部補間信号を適当な混合比で合成し、雑音の後半部分と後部補間信号を適当な混合比で合成することで、補間処理を実行してもよい。この補間処理により、入力音声信号における雑音部分が補間されて、雑音が低減された音声信号が出力されるので、当該雑音を低減・除去することができる。
For example, the
[3.3.音声信号処理装置の動作]
次に、第3の実施形態に係る音声信号処理装置100の動作について説明する。雑音がない通常時の動作は、第2の実施形態の場合(図11参照。)と同様であるので詳細説明は省略する。以下では、第3の実施形態に係る雑音発生時の動作例について、雑音がn番目とn+1番目のフレームに跨って存在する場合(第1動作例)と、雑音がn−1番目とn番目のフレームに跨って存在する場合(第2動作例)をそれぞれ説明する。なお、双方の場合とも、n番目のフレームに雑音(パルス機械音)のパルス成分のピークが存在するため、n番目のフレームの入力時に雑音が検出されるものとする。
[3.3. Operation of audio signal processing apparatus]
Next, the operation of the audio
[3.3.1.雑音発生時の第1動作例]
まず、図17、図18を参照して、雑音がn番目とn+1番目のフレームに跨って存在する場合の音声信号処理装置100の第1動作例について説明する。図17、図18は、本実施形態に係る音声信号処理装置100の雑音発生時の第1動作例を示す模式図である。
[3.3.1. First operation example when noise occurs]
First, a first operation example of the audio
図17Aに示すように、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了し、かつ、当該音声信号s(n)に雑音のピークが含まれることが検出されたときには、図17Aに示す雑音基準点の検出処理及び前部補間信号の生成処理と、図17Bに示す前部補間処理が直ちに実行される。
As shown in FIG. 17A, it is detected that all of the audio signal s (n) of the nth frame has been accumulated in the
詳細には、まず、前部補間信号生成部158は、図17Aに示すように、雑音開始点PSから雑音前部区間長LFだけ前の点PAまでの区間SAの信号から、雑音前部区間SFを補間するための前部補間信号t(n)を生成する。ここで、雑音前部区間SFは、雑音開始点PSから雑音中間点PMまでの区間であり、雑音前部区間長LFは、雑音開始点PSから雑音中間点PMまでの区間の長さである。
Specifically, first, as shown in FIG. 17A, the front interpolated
区間SAは、パルス機械音の雑音開始点PSよりも前に存在し、雑音を含まない区間である。本実施形態では、区間SAの区間長は、雑音前部区間長LFと同一となるように設定される。しかし、区間SAの区間長は、雑音前部区間長LFに応じて適宜設定されればよく、LFより短い、又は長くてもよい。かかる区間SAは、少なくともn番目のフレームの前部の区間を含み、雑音前部区間長LFによってはn−1番目のフレームの後部の区間をも含む。図17Aの例では、区間SAはn番目及びn−1番目のフレームの双方に跨って設定されている。 Section S A is present before the noise start point P S of the pulsed mechanical sound, a section that does not contain noise. In the present embodiment, the section length of the section S A is set equal to the noise front section length L F. However, section length of the section S A may be set as appropriate depending on the noise front section length L F, shorter than L F, or may be longer. Such interval S A includes front section of at least n-th frame, by the noise front section length L F also includes a rear section of the n-1 th frame. In the example of FIG. 17A, the section S A is set across both the n-th and n-1 th frame.
前部補間信号生成部158は、n番目及びn−1番目のフレームの音声信号s(n)、s(n−1)のうち上記区間SAの信号を用いて、前部補間信号t(n)を生成する。この前部補間信号t(n)の生成方法は、前述した第1の実施形態に係る補間信号v(n)の生成方法と同様であり(図4、図5参照。)、例えば、区間SAの信号を時間軸方向に反転させることで、前部補間信号t(n)が生成される。
Front interpolation
次いで、信号補間部154は、図17Bに示すように、上記前部補間信号t(n)を用いて、n番目のフレームの音声信号s(n)のうち、雑音前部区間SFの信号を補間する。図17Bの前部補間処理の例では、入力用バッファメモリ122に保存されているn番目のフレームのうち雑音前部区間SFの音声信号s(n)が、前部補間信号t(n)に置換されている。かかる前部補間処理により、雑音前部区間SFの雑音が低減される。
Then,
次いで、図17Cに示すように、上記前部補間処理後に直ちに、信号補間部154は、出力用バッファメモリ132に保存されているn−1番目のフレームの音声信号s(n−1)を信号出力部160に出力する。さらに、信号補間部154は、上記音声信号s(n−1)の出力とともに、入力用バッファメモリ122に保存されている前部補間音声信号s(n)+t(n)を、出力用バッファメモリ132に移動させる。ここで、前部補間音声信号s(n)+t(n)とは、上記前部補間信号t(n)により雑音前部区間SFが補間されたn番目のフレームの音声信号s(n)である。このように、前部補間音声信号s(n)+t(n)を出力用バッファメモリ132に移動させておくことで、次のn+1番目のフレームの音声信号s(n+1)が入力されたときに、前部補間音声信号s(n)+t(n)のうちの後部雑音区間を補間することができる。
Next, as shown in FIG. 17C, immediately after the front interpolation process, the
次いで、図18Aに示すように、次のn+1番目のフレームの音声信号s(n+1)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、上記前部補間音声信号s(n)+t(n)が出力用バッファメモリ132に一時保存されている。
Next, as shown in FIG. 18A, when the audio signal s (n + 1) of the next n + 1-th frame is newly input and stored in the
そして、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには、図18Aに示す後部補間信号の生成処理と、図18Bに示す後部補間処理が直ちに実行される。
Then, when all of the audio signal s (n + 1) of the (n + 1) th frame has been accumulated in the
詳細には、まず、後部補間信号生成部159は、図18Aに示すように、雑音終了点PEから雑音後部区間長LRだけ前の点PBまでの区間SBの信号から、雑音後部区間SRを補間するための後部補間信号u(n)を生成する。ここで、雑音後部区間SRは、雑音中間点PMから雑音終了点PEまでの区間であり、雑音後部区間長LRは、雑音中間点PMから雑音終了点PEまでの区間の長さである。
More specifically, first, the rear interpolation
区間SBは、パルス機械音の雑音終了点PEよりも後に存在し、雑音を含まない区間である。本実施形態では、区間SBの区間長は、雑音後部区間長LRと同一となるように設定される。しかし、区間SBの区間長は、雑音後部区間長LRに応じて適宜設定されればよく、LBより短い、又は長くてもよい。かかる区間SBは、少なくともn番目のフレームの後部の区間、及びn+1番目のフレームの前部の区間を含み、雑音後部区間長LRによっては、n+2番目のフレームの前部の区間をも含む。図18Aの例では、区間SBはn番目及びn+1番目のフレームの双方に跨って設定されている。 Section S B is present after the noise end point P E of pulsed mechanical sound, a section that does not contain noise. In the present embodiment, the section length of the section S B is set equal to the noise rear section length L R. However, section length of the section S B may be set appropriately in accordance with the noise rear section length L R, shorter than L B, or may be longer. Such section S B includes front section of at least n-th rear section of the frame and (n + 1) th frame, depending on the noise rear section length L R, including a front section of the n + 2 th frame . In the example of FIG. 18A, the section S B is set across both the n-th and (n + 1) th frame.
後部補間信号生成部159は、n番目及びn+1番目のフレームの音声信号s(n)、s(n+1)のうち上記区間SBの信号を用いて、後部補間信号u(n)を生成する。この後部補間信号u(n)の生成方法は、前述した第1の実施形態に係る補間信号v(n)の生成方法と同様であり(図4、図5参照。)、例えば、区間SBの信号を時間軸方向に反転させることで、後部補間信号u(n)が生成される。
Rear interpolation
次いで、信号補間部154は、図18Bに示すように、上記後部補間信号u(n)を用いて、n番目及びn+1番目のフレームの音声信号s(n)、s(n+1)のうち、雑音後部区間SRの信号を補間する。図18Bの後部補間処理の例では、出力用バッファメモリ132に保存されているn番目のフレームの前部補間音声信号s(n)+t(n)、及び入力用バッファメモリ122に保存されているn+1番目のフレームの音声信号s(n+1)のうち、雑音後部区間SRの信号が、後部補間信号u(n)に置換されている。かかる後部補間処理により、雑音後部区間SRの雑音が低減される。
Next, as shown in FIG. 18B, the
次いで、図18Cに示すように、上記後部補間処理後に直ちに、信号補間部154は、図17Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて、出力用バッファメモリ132に保存されている前後部補間信号s(n)+t(n)+u(n)を、信号出力部160に出力する。ここで、前後部補間音声信号s(n)+t(n)+u(n)とは、上記前部補間信号t(n)により雑音前部区間SFが補間され、かつ、上記後部補間信号u(n)により雑音後部区間SRが補間されたn番目のフレームの音声信号s(n)である。
Next, as shown in FIG. 18C, immediately after the rear interpolation process, the
さらに、図18Cに示すように、信号補間部154は、上記前後部補間音声信号s(n)+t(n)+u(n)の出力とともに、入力用バッファメモリ122に保存されている、n+1番目のフレームの前部補間音声信号u(n)+s(n+1)を、出力用バッファメモリ132に移動させる。これにより、次にn+2番目のフレームの音声信号s(n+1)が入力されたときに、雑音が低減されたn+1番目のフレームの前部補間音声信号u(n)+s(n+1)を出力することが可能となる。
Further, as shown in FIG. 18C, the
上記第1動作例のように、雑音がn番目とn+1番目のフレームに跨って存在する場合には、n番目とn−1番目のフレームのうち雑音開始点PSの直前の信号を用いて雑音前部区間SFが補間され、n番目とn+1番目のフレームのうち雑音終了点PEの直後の信号を用いて雑音後部区間SRが補間される。 As in the above first operation example, in the presence of noise across n-th and (n + 1) th frame, by using a signal just before the noise start point P S of the n-th and n-1 th frame noise front section S F is interpolated noise rear section S R using the signal immediately after the n-th and n + 1 th noise end point P E of the frames is interpolated.
[3.3.2.雑音発生時の第2動作例]
次に、図19、図20を参照して、雑音がn−1番目とn番目のフレームに跨って存在する場合の音声信号処理装置100の第2動作例について説明する。図19、図20は、本実施形態に係る音声信号処理装置100の雑音発生時の第2動作例を示す模式図である。
[3.3.2. Second operation example when noise occurs]
Next, with reference to FIGS. 19 and 20, a second operation example of the audio
図19Aに示すように、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了し、かつ、当該音声信号s(n)に雑音のピークが含まれることが検出されたときには、図19Aに示す雑音基準点の検出処理及び前部補間信号の生成処理と、図19Bに示す前部補間処理が直ちに実行される。
As shown in FIG. 19A, it is detected that all of the audio signal s (n) of the nth frame has been accumulated in the
詳細には、まず、前部補間信号生成部158は、図19Aに示すように、雑音開始点PSから雑音前部区間長LFだけ前の点PAまでの区間SAの信号から、雑音前部区間SFを補間するための前部補間信号t(n)を生成する。雑音前部区間SF及び区間SA等の定義は、前述の第1動作例と同様である。ただし、第2動作例では、雑音開始点PSがn−1番目のフレームに存在するため、雑音前部区間SFは、n−1番目及びn番目のフレームに跨って存在する。また、区間SAは、少なくともn−1番目のフレームの一部の区間を含み、雑音前部区間長LFによってはn−2番目のフレームの後部の区間をも含む。図19Aの例では、区間SAはn−1番目のフレーム内に設定されている。
Specifically, first, as shown in FIG. 19A, the front interpolation
前部補間信号生成部158は、n−1番目のフレームの音声信号s(n−1)のうち上記区間SAの信号を用いて、前部補間信号t(n)を生成する。この前部補間信号t(n)の生成方法は、上記第1動作例と同様である。
Front interpolation
次いで、信号補間部154は、図19Bに示すように、上記前部補間信号t(n)を用いて、n−1番目及びn番目のフレームの音声信号s(n−1)、s(n)のうち、雑音前部区間SFの信号を補間する。図19Bの前部補間処理の例では、出力用バッファメモリ132に保存されているn番目のフレーム、及び入力用バッファメモリ122に保存されているn番目のフレームのうち、雑音前部区間SFの音声信号s(n−1)、s(n)が、前部補間信号t(n)に置換されている。かかる前部補間処理により、雑音前部区間SFの雑音が低減される。
Next, as shown in FIG. 19B, the
次いで、図19Cに示すように、上記前部補間処理後に直ちに、信号補間部154は、出力用バッファメモリ132に保存されている、後部補間音声信号s(n−1)+t(n)を信号出力部160に出力する。ここで、後部補間音声信号s(n−1)+t(n)とは、上記前部補間信号t(n)により雑音後部区間SFが補間されたn−1番目のフレームの音声信号s(n−1)である。
Next, as shown in FIG. 19C, immediately after the front interpolation process, the
さらに、図19Cに示すように、信号補間部154は、上記後部補間音声信号s(n−1)+t(n)の出力とともに、入力用バッファメモリ122に保存されている前部補間音声信号t(n)+s(n)を、出力用バッファメモリ132に移動させる。ここで、前部補間音声信号t(n)+s(n)とは、上記前部補間信号t(n)により雑音前部区間SFが補間されたn番目のフレームの音声信号s(n)である。このように、前部補間音声信号t(n)+s(n)を出力用バッファメモリ132に移動させておくことで、次のn+1番目のフレームの音声信号s(n+1)が入力されたときに、前部補間音声信号t(n)+s(n)のうちの後部雑音区間を補間することができる。
Further, as shown in FIG. 19C, the
次いで、図20Aに示すように、次のn+1番目のフレームの音声信号s(n+1)が新たに入力され、入力用バッファメモリ122に蓄積されているときには、上記前部補間音声信号t(n)+s(n)が出力用バッファメモリ132に一時保存されている。
Next, as shown in FIG. 20A, when the audio signal s (n + 1) of the next n + 1-th frame is newly input and accumulated in the
そして、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには、図20Aに示す後部補間信号の生成処理と、図20Bに示す後部補間処理が直ちに実行される。
Then, when all of the audio signal s (n + 1) of the (n + 1) th frame has been accumulated in the
詳細には、まず、後部補間信号生成部159は、図20Aに示すように、雑音終了点PEから雑音後部区間長LRだけ前の点PBまでの区間SBの信号から、雑音後部区間SRを補間するための後部補間信号u(n)を生成する。雑音後部区間SR及び区間SB等の定義は、前述の第1動作例と同様である。ただし、第2動作例では、雑音終了点PEがn番目のフレームに存在するため、雑音後部区間SFは、n+1番目のフレーム内に存在する。また、区間SBは、少なくともn番目のフレームの一部の区間を含み、雑音後部区間長LRによってはn−1番目のフレームの前部後部の区間をも含む。図20Aの例では、区間SBはn番目及びn+1番目のフレームの双方に跨って設定されている。
Specifically, first, as shown in FIG. 20A, the rear interpolation
後部補間信号生成部159は、n番目及びn+1番目のフレームの音声信号s(n)、s(n+1)のうち上記区間SBの信号を用いて、後部補間信号u(n)を生成する。この後部補間信号u(n)の生成方法は、上記第1動作例と同様である。
Rear interpolation
次いで、信号補間部154は、図20Bに示すように、上記後部補間信号u(n)を用いて、n番目のフレームの音声信号s(n)のうち、雑音後部区間SRの信号を補間する。図20Bの後部補間処理の例では、出力用バッファメモリ132に保存されているn番目のフレームの前部補間音声信号t(n)+s(n)のうち、雑音後部区間SRの信号が、後部補間信号u(n)に置換されている。かかる後部補間処理により、雑音後部区間SRの雑音が低減される。
Then,
次いで、図20Cに示すように、上記後部補間処理後に直ちに、信号補間部154は、図19Aで実際に入力されたn番目のフレームの音声信号s(n)に換えて、出力用バッファメモリ132に保存されている前後部補間信号t(n)+u(n)+s(n)を、信号出力部160に出力する。ここで、前後部補間音声信号t(n)+u(n)+s(n)とは、上記前部補間信号t(n)により雑音前部区間SFが補間され、かつ、上記後部補間信号u(n)により雑音後部区間SRが補間されたn番目のフレームの音声信号s(n)である。
Next, as shown in FIG. 20C, immediately after the rear interpolation process, the
さらに、図20Cに示すように、信号補間部154は、上記前後部補間音声信号t(n)+u(n)+s(n)の出力とともに、入力用バッファメモリ122に保存されている、n+1番目のフレームの音声信号s(n+1)を、出力用バッファメモリ132に移動させる。これにより、次にn+2番目のフレームの音声信号s(n+1)が入力されたときに、n+1番目のフレームの音声信号s(n+1)を出力することが可能となる。
Furthermore, as shown in FIG. 20C, the
上記第2動作例のように、雑音がn−1番目とn番目のフレームに跨って存在する場合には、n−1番目のフレームのうち雑音開始点PSの直前の信号を用いて雑音前部区間SFが補間され、n番目とn+1番目のフレームのうち雑音終了点PEの直後の信号を用いて雑音後部区間SRが補間される。 As in the second operation example, in the presence of noise across n-1 th and n-th frame, by using a signal just before the noise start point P S of the n-1 th frame noise front section S F is interpolated noise rear section S R using the signal immediately after the n-th and n + 1 th noise end point P E of the frames is interpolated.
以上のように、本実施形態によれば、雑音が2つのフレームに跨って存在する場合に、当該雑音の基準点を検出し、雑音開始点PSより前の区間SAの信号を用いて雑音前部区間SFを補間するとともに、雑音終了点PEより後の区間SBの信号を用いて雑音後部区間SRを補間する。これにより、フレーム単位で補間処理を行う必要が無くなり、雑音の直近の自由な区間の信号を用いて補間処理を行うことができるので、より一層、自然で高精度な補間処理を実行できるので、高品質の雑音低減を実現できる。 As described above, according to this embodiment, in the presence of noise over two frames, and detects the reference point of the noise, using a signal of a previous segment S A from the noise start point P S with interpolated noise front section S F, it interpolates the noise rear section S R using the signal of the section S B after the noise end point P E. This eliminates the need to perform interpolation processing on a frame-by-frame basis and allows interpolation processing to be performed using a signal in a free section closest to noise, so that even more natural and highly accurate interpolation processing can be executed. High quality noise reduction can be realized.
また、上記のように雑音基準点を検出して補間処理する場合であっても、入力用バッファメモリ122及び出力用バッファメモリ132のメモリ長はそれぞれ、1フレームのサンプルデータ数Nでよい。従って、第1、2の実施形態同様に、装置全体で必要なバッファメモリ長は2*Nで済む。また、入力用バッファメモリ122に対して次のフレームの音声信号s(n+1)が蓄積完了した時点で直ちに、1つ前のフレームの音声信号s(n)が外部に出力されるので、入力音声に対する出力音声の遅延は1フレーム分で済む。
Further, even when the noise reference point is detected and interpolation processing is performed as described above, the memory lengths of the
[3.4.音声信号処理方法]
次に、図21を参照して、上記の音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図21は、第3の実施形態に係る音声信号処理方法を示すフローチャートである。
[3.4. Audio signal processing method]
Next, an audio signal processing method (mechanical sound reduction method) using the audio
図21に示すように、まず、音声信号処理装置100は、マイクロホン51から入力される1フレーム分の音声信号が入力用バッファメモリ122に蓄積されたか否かを判定する(S300)。ここでは、現在、n番目のフレームの音声信号s(n)が入力中である場合の処理について説明する。S300の判定の結果、n番目のフレームの音声信号s(n)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、雑音検出部140は、当該音声信号s(n)に雑音が含まれるか否かを検出する(S302)。
As shown in FIG. 21, first, the audio
S302の判定の結果、雑音が検出された場合には直ちに、雑音基準点の検出処理(S304)、前部補間信号の生成処理(S306)、及び前部補間処理(S308)が実行される。 If noise is detected as a result of the determination in S302, a noise reference point detection process (S304), a front interpolation signal generation process (S306), and a front interpolation process (S308) are immediately executed.
詳細には、まず、雑音基準点検出部142は、上述したように、音声信号s(s)に含まれる雑音の特性に基づいて、雑音開始点PS、雑音中間点PM、雑音終了点PEを計算する(S304)。次いで、前部補間信号生成部158は、図17、図19に示したように、雑音開始点PSより前の所定区間SAの音声信号s(n−1)、s(n)を用いて、雑音前部区間SFを補間するための前部補間信号t(n)を生成する(S306)。
Specifically, first, the noise reference
さらに、信号補間部154は、S306で生成された前部補間信号t(n)を用いて、音声信号s(n−1)、s(n)のうちの雑音前部区間SFの信号を補間する(S308)。このS308の前部補間処理では、雑音前部区間SFの信号を前部補間信号t(n)に置換してもよいし、当該雑音前部区間SFの信号と前部補間信号t(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
Furthermore,
その後、信号補間部154は、入力用バッファメモリ122内の前部補間音声信号s(n)+t(n)を出力用バッファメモリ132に移動させる(S310)。
After that, the
次いで、新たに入力されたn+1番目のフレームの音声信号s(n+1)を入力用バッファメモリ122に蓄積し、当該音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したか否を判定する(S312)。この結果、n+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときには直ちに、図18、図20に示した後部補間信号の生成処理(S316)、及び後部補間処理(S318)が実行される。
Next, the newly input audio signal s (n + 1) of the (n + 1) th frame is accumulated in the
詳細には、まず、後部補間信号生成部159は、図18、図20に示したように、雑音終了点PEより後前の所定区間SBの音声信号s(n)、s(n+1)を用いて、雑音後部区間SRを補間するための後部補間信号u(n)を生成する(S316)。
More specifically, first, the rear interpolation
次いで、信号補間部154は、S316で生成された後部補間信号u(n)を用いて、音声信号s(n)、s(n+1)のうちの雑音後部区間SRの信号を補間する(S318)。このS318の後部補間処理では、雑音後部区間SRの信号を後部補間信号u(n)に置換してもよいし、当該雑音後部区間SRの信号と後部補間信号u(n)を適切な混合比で合成してもよい。以下では、置換した例について説明する。
Then,
その後、信号補間部154は、実際に入力されたn番目のフレームの音声信号s(n)に換えて、S308、S318で前部補間信号t(n)及び後部補間信号u(n)により補間された前後部補間音声信号s(n)、t(n)、u(n)を、信号出力部160に出力する(S320)。そして、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
Thereafter, the
一方、上記S302の雑音判定の結果、n番目のフレームの音声信号s(n)に雑音が検出されない場合は、上記のような補間処理を行わず、通常の入出力処理を行う。即ち、図11に示したように、出力用バッファメモリ132からn−1番目のフレームの音声信号s(n−1)をそのまま信号出力部160出力し、入力用バッファメモリ122に保存されたn番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる(S310)。そして、次のn+1番目のフレームの音声信号s(n+1)の全てが入力用バッファメモリ122に蓄積完了したときに(S312)、出力用バッファメモリ132からn番目のフレームの音声信号s(n)をそのまま信号出力部160に出力し(S320)、入力用バッファメモリ122に保存されたn+1番目のフレームの音声信号s(n)を出力用バッファメモリ132に移動させる。
On the other hand, if no noise is detected in the audio signal s (n) of the nth frame as a result of the noise determination in S302, normal input / output processing is performed without performing the above interpolation processing. That is, as shown in FIG. 11, the audio signal s (n−1) of the (n−1) th frame is output from the
その後、デジタルカメラ1による撮像及び録音動作が終了(S322)するまで、入力音声信号の次の1フレームの音声信号s(n+2)に対して、上記S300〜S320の処理が繰り返される。これにより、入力音声信号に対して1フレームごとに雑音の検出処理が行われ、必要に応じて補間処理(雑音低減処理)が施された上で、雑音の無い音声信号がフレーム単位で出力される。
Thereafter, the processes of S300 to S320 are repeated for the audio signal s (n + 2) of the next frame of the input audio signal until the imaging and recording operation by the
[3.5.効果]
以上、本開示の第3の実施形態に係る音声信号処理装置100の構成と、これを用いた音声信号処理方法について説明した。第3の実施形態によれば、上述した第2の実施形態の効果に加え、さらに以下の効果がある。
[3.5. effect]
The configuration of the audio
第3の実施形態によれば、雑音基準点(雑音開始点PS、雑音中間点PM、雑音終了点PE)を検出することにより、音声信号のフレーム単位に関わらずに、雑音基準点に基づき、雑音前後の音声信号の任意の区間を自由に選択して、補間処理を実現できる。即ち、雑音開始点PSの直前の区間SAの信号から前部補間信号t(n)を生成して、雑音前部区間SFを補間するとともに、雑音終了点PEの直後の区間SBの信号から後部補間信号u(n)を生成して、雑音後部区間SRを補間する。従って、雑音が複数のフレームに跨って存在する場合であっても、その雑音区間の直近前後の区間の信号を好適に用いて、補間処理を適切に実現できる。 According to the third embodiment, the noise reference point (noise start point P S , noise intermediate point P M , noise end point P E ) is detected, so that the noise reference point can be obtained regardless of the frame unit of the audio signal. Based on the above, it is possible to freely select an arbitrary section of the audio signal before and after the noise and realize the interpolation processing. That generates a front interpolation signal t (n) from the signal of the section S A immediately before the noise start point P S, as well as interpolated noise front section S F, immediately after the noise end point P E section S from the signal of B to generate a rear interpolation signal u (n), it interpolates the noise rear section S R. Therefore, even when noise exists over a plurality of frames, it is possible to appropriately implement the interpolation process by suitably using signals in the sections immediately before and after the noise section.
さらに、第2の実施形態と同様に、雑音区間の前後の信号を用いて補間処理を行うので、補間処理の精度を高めて、雑音を低減しつつ、背景音を高精度で再現できるので、雑音低減処理の精度を大幅に向上できる。 Furthermore, as in the second embodiment, since interpolation processing is performed using signals before and after the noise section, the background sound can be reproduced with high accuracy while increasing the accuracy of the interpolation processing and reducing noise. The accuracy of noise reduction processing can be greatly improved.
また、第1、2の実施形態と同様に、第3の実施形態でも、補間信号の推定に必要なバッファメモリ長は2*Nで済むので、上記従来の補間方法(図1参照。)が少なくとも3*Nのバッファメモリ長が必要であるのと比べて、補間処理に必要なバッファメモリを大幅に削減できる。 Similarly to the first and second embodiments, in the third embodiment, the buffer memory length required for estimating the interpolation signal is 2 * N, so the conventional interpolation method (see FIG. 1) is used. Compared with the need for a buffer memory length of at least 3 * N, the buffer memory required for interpolation processing can be greatly reduced.
さらに、第2の実施形態と同様に、入力音声に対する出力音声の遅延を1フレーム分(遅延量:N)に抑えることができるので、補間処理に伴う出力音声の遅延を従来の補間方法よりも半分に低減できる。 Further, as in the second embodiment, since the delay of the output sound with respect to the input sound can be suppressed to one frame (delay amount: N), the delay of the output sound associated with the interpolation process is less than that of the conventional interpolation method. Can be reduced to half.
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。 The preferred embodiments of the present disclosure have been described in detail above with reference to the accompanying drawings, but the present technology is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field of the present disclosure can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that it belongs to the technical scope of the present disclosure.
例えば、上記実施形態では主に、音声信号処理装置としてデジタルカメラ1を例示し、動画撮像と共に録音する時に機械音を低減する例について説明したが、本技術はかかる例に限定されない。本技術の音声信号処理装置は、各種の音声信号記録装置又は音声信号再生装置等の電子機器に適用できる。例えば、音声信号処理装置は、記録再生装置(例えば、ブルーレイディスク/DVDレコーダ)、テレビジョン受像器、システムステレオ装置、撮像装置(例えば、デジタルカメラ、デジタルビデオカメラ)、携帯端末(例えば、携帯型音楽/映像プレーヤ、携帯型ゲーム機、ICレコーダ)、パーソナルコンピュータ、ゲーム機、カーナビゲーション装置、デジタルフォトフレーム、家庭電化製品、自動販売機、ATM、キオスク端末など、任意の電子機器に適用できる。
For example, in the above-described embodiment, the
また、上記実施形態では、デジタルカメラ1による音声信号の記録時に、雑音低減処理を実行する例について説明した。しかし、かかる例に限定されず、本技術の音声信号処理装置を音声信号再生装置に適用すれば、記録された音声信号を再生するときにも、再生対象の音声信号に含まれる雑音を適切に低減することができる。
Further, in the above-described embodiment, the example in which the noise reduction process is performed when the audio signal is recorded by the
なお、本技術は以下のような構成も取ることができる。
(1)入力された音声信号を所定区間ごとに一時保存する第1のバッファメモリと、
前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
を備える、音声信号処理装置。
In addition, this technique can also take the following structures.
(1) a first buffer memory that temporarily stores an input audio signal for each predetermined section;
A second buffer memory for temporarily storing the audio signal of the (n-1) th section immediately before the audio signal of the nth section stored in the first buffer memory;
Interpolation that generates an interpolated signal from at least the (n−1) th section audio signal stored in the second buffer memory when it is detected that the nth section audio signal contains noise. A signal generator;
Using the interpolation signal, a signal interpolation unit that interpolates the sound signal of the nth section including the noise;
An audio signal processing apparatus comprising:
(2)前記音声信号に含まれる前記雑音の開始点及び終了点を検出する雑音基準点検出部をさらに備え、
前記補間信号生成部は、
前記n−1番目又は前記n番目の区間の一方若しくは双方の音声信号から第1の補間信号を生成する第1の補間信号生成部と、
前記n+1番目又は前記n番目の区間の一方若しくは双方の音声信号から第2の補間信号を生成する第2の補間信号生成部と、
を備え、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記開始点よりも前の所定区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による補間後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記終了点よりも後の所定区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による補間後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の後部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号及び前記第2の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、前記(1)に記載の音声信号処理装置。
(2) further comprising a noise reference point detection unit for detecting a start point and an end point of the noise included in the audio signal;
The interpolation signal generator is
A first interpolation signal generating unit that generates a first interpolation signal from one or both of the n-1 and / or n-th audio signals;
A second interpolation signal generating unit that generates a second interpolation signal from one or both of the n + 1-th and n-th interval audio signals;
With
When the audio signal of the nth section is temporarily stored in the first buffer memory and it is detected that at least the audio signal of the nth section includes noise, the first interpolation signal The generating unit includes the n-1th section audio signal stored in the second buffer memory and the nth section audio signal stored in the first buffer memory. The first interpolation signal is generated from a signal in a predetermined interval before the start point, and the signal interpolation unit is configured to detect the noise front portion of the audio signals in the (n−1) th and nth intervals. A signal is interpolated using the first interpolation signal, and the audio signal of the n-th section after interpolation by the first interpolation signal is temporarily stored in the second buffer memory,
When the audio signal of the (n + 1) th section is temporarily stored in the first buffer memory, the second interpolation signal generation unit stores the first interpolation stored in the second buffer memory. Of the audio signal of the nth section after interpolation by the signal and the audio signal of the n + 1st section stored in the first buffer memory, from the signal of the predetermined section after the end point, A second interpolation signal is generated, and the signal interpolation unit outputs a signal behind the noise among the sound signal of the nth section and the sound signal of the n + 1th section after interpolation by the first interpolation signal. Interpolating using the first interpolation signal, and outputting the audio signal of the nth section after interpolation by the first interpolation signal and the second interpolation signal from the second buffer memory, Sound described in (1) Signal processor.
(3)前記雑音基準点検出部は、前記雑音の中間点を検出し、前記中間点に基づいて前記開始点及び前記終了点を検出し、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記雑音の前記開始点と前記中間点との間の長さに相当する分だけ前記開始点よりも前に位置する区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前記開始点から前記中間点までの区間の信号を前記第1の補間信号に置換し、前記第1の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による置換後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記雑音の前記中間点と前記終了点との間の長さに相当する分だけ前記終了点よりも後に位置する区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による置換後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の前記中間点から前記終了点までの区間の信号を前記第2の補間信号に置換し、前記第1の補間信号及び前記第2の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、前記(2)に記載の音声信号処理装置。
(3) The noise reference point detection unit detects an intermediate point of the noise, detects the start point and the end point based on the intermediate point,
When the audio signal of the nth section is temporarily stored in the first buffer memory and it is detected that at least the audio signal of the nth section includes noise, the first interpolation signal The generating unit includes the n-1th section audio signal stored in the second buffer memory and the nth section audio signal stored in the first buffer memory. The signal interpolation unit generates the first interpolation signal from a signal in a section located before the start point by an amount corresponding to the length between the start point and the intermediate point of noise. Of the speech signals of the (n-1) th and nth intervals, the signal in the interval from the start point to the intermediate point of the noise is replaced with the first interpolation signal, and the replacement by the first interpolation signal The audio signal of the nth section after Temporarily stored in the second buffer memory,
When the audio signal of the (n + 1) th section is temporarily stored in the first buffer memory, the second interpolation signal generation unit stores the first interpolation stored in the second buffer memory. Of the sound signal of the nth section after replacement by a signal and the sound signal of the n + 1th section stored in the first buffer memory, between the intermediate point and the end point of the noise The second interpolation signal is generated from the signal in the section located after the end point by an amount corresponding to the length of the first interpolation signal, and the signal interpolation unit replaces the nth section with the first interpolation signal. Of the noise signal and the sound signal of the (n + 1) th section are replaced with the second interpolation signal in the section from the intermediate point to the end point of the noise, and the first interpolation signal and the second interpolation signal are replaced. After replacement by interpolation signal The audio signal of the serial n th interval outputted from said second buffer memory, the audio signal processing apparatus according to (2).
(4)前記補間信号生成部は、
前記n−1番目の区間の音声信号から第1の仮補間信号を生成する第1の仮補間信号生成部と、
前記n+1番目の区間の音声信号から第2の仮補間信号を生成する第2の仮補間信号生成部と、
を備え、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の仮補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から前記第1の仮補間信号を生成し、前記第1の仮補間信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の仮補間信号生成部は、前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号から第2の仮補間信号を生成し、前記信号補間部は、前記第2の仮補間信号、及び前記第2のバッファメモリに保存されている前記第1の仮補間信号から前記補間信号を生成し、前記n番目の区間の音声信号に換えて前記補間信号を前記第2のバッファメモリから出力する、前記(1)に記載の音声信号処理装置。
(4) The interpolation signal generation unit
A first temporary interpolation signal generating unit that generates a first temporary interpolation signal from the audio signal of the (n-1) th section;
A second temporary interpolation signal generation unit that generates a second temporary interpolation signal from the audio signal of the (n + 1) th section;
With
When the audio signal of the nth section is temporarily stored in the first buffer memory and it is detected that the audio signal of the nth section includes noise, the first temporary interpolation signal The generation unit generates the first temporary interpolation signal from the audio signal of the (n−1) -th section stored in the second buffer memory, and the first temporary interpolation signal is generated in the second buffer. Temporarily store it in memory,
When the audio signal of the (n + 1) th section is temporarily stored in the first buffer memory, the second temporary interpolation signal generation unit is configured to store the n + 1th section stored in the first buffer memory. A second temporary interpolation signal is generated from the audio signal, and the signal interpolation unit performs the interpolation from the second temporary interpolation signal and the first temporary interpolation signal stored in the second buffer memory. The audio signal processing device according to (1), wherein a signal is generated and the interpolated signal is output from the second buffer memory in place of the audio signal in the n-th interval.
(5)前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から前記補間信号を生成し、前記信号補間部は、前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に換えて前記補間信号を前記第1のバッファメモリから出力する、前記(1)に記載の音声信号処理装置。 (5) generating the interpolated signal when the audio signal in the n-th section is temporarily stored in the first buffer memory and it is detected that the audio signal in the n-th section includes noise. The unit generates the interpolation signal from the audio signal of the (n-1) th section stored in the second buffer memory, and the signal interpolation unit is stored in the first buffer memory. The audio signal processing device according to (1), wherein the interpolation signal is output from the first buffer memory in place of the audio signal in the nth section.
(6)前記雑音は、前記音声信号を出力する収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音である、前記(1)〜(5)のいずれか一項に記載の音声信号処理装置。 (6) The noise is any one of (1) to (5), which is a pulsed operation sound generated from a sound generation unit provided in the same housing as the sound collection unit that outputs the audio signal. The audio signal processing device according to item.
(7)前記発音部は、前記収音部と同一の筐体に設けられた駆動装置であり、
前記作動音は、前記駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音である、前記(6)に記載の音声信号処理装置。
(7) The sound generation unit is a driving device provided in the same housing as the sound collection unit,
The sound signal processing device according to (6), wherein the operation sound is a pulse-like mechanical drive sound generated when the operation of the drive device starts or ends.
(8)前記音声信号の処理単位である前記所定区間の時間長は、前記パルス状の機械駆動音の時間長よりも長い、前記(1)〜(7)のいずれか一項に記載の音声信号処理装置。 (8) The sound according to any one of (1) to (7), wherein a time length of the predetermined section, which is a processing unit of the sound signal, is longer than a time length of the pulse-like mechanical drive sound. Signal processing device.
(9)外部音声を音声信号に変換する収音部と、
前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、
前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第1のバッファメモリと、
前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
を備える、撮像装置。
(9) a sound collection unit that converts external sound into a sound signal;
A sound generation unit that is provided in the same housing as the sound collection unit and generates noise;
A first buffer memory for temporarily storing the audio signal input from the sound collection unit for each predetermined section;
A second buffer memory for temporarily storing the audio signal of the (n-1) th section immediately before the audio signal of the nth section stored in the first buffer memory;
Interpolation that generates an interpolated signal from at least the (n−1) th section audio signal stored in the second buffer memory when it is detected that the nth section audio signal contains noise. A signal generator;
Using the interpolation signal, a signal interpolation unit that interpolates the sound signal of the nth section including the noise;
An imaging apparatus comprising:
(10)第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
を含む、音声信号処理方法。
(10) temporarily storing the audio signal of the (n-1) th section stored in the first buffer memory in the second buffer memory;
Temporarily storing the input audio signal of the nth section in the first buffer memory;
When it is detected that the nth section audio signal stored in the first buffer memory includes noise, at least the n−1th section stored in the second buffer memory. Generating an interpolated signal from the audio signal of the section;
Using the interpolated signal to interpolate the audio signal of the nth section containing the noise;
An audio signal processing method comprising:
(11)第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラム。
(11) temporarily storing the audio signal of the (n−1) th section stored in the first buffer memory in the second buffer memory;
Temporarily storing the input audio signal of the nth section in the first buffer memory;
When it is detected that the nth section audio signal stored in the first buffer memory includes noise, at least the n−1th section stored in the second buffer memory. Generating an interpolated signal from the audio signal of the section;
Using the interpolated signal to interpolate the audio signal of the nth section containing the noise;
A program that causes a computer to execute.
(12)第1のバッファメモリに保存されているn−1番目の区間の音声信号を第2のバッファメモリに一時保存することと、
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
(12) temporarily storing the audio signal of the (n−1) -th section stored in the first buffer memory in the second buffer memory;
Temporarily storing the input audio signal of the nth section in the first buffer memory;
When it is detected that the nth section audio signal stored in the first buffer memory includes noise, at least the n−1th section stored in the second buffer memory. Generating an interpolated signal from the audio signal of the section;
Using the interpolated signal to interpolate the audio signal of the nth section containing the noise;
A computer-readable recording medium on which a program for causing a computer to execute is recorded.
1 デジタルカメラ
10 撮像部
14 駆動装置
15 ズームモータ
16 フォーカスモータ
51 マイクロホン
60 音声信号処理部
70 制御部
100 音声信号処理装置
110 信号入力部
120 入出力用バッファメモリ
122 入力用バッファメモリ
130 補間用バッファメモリ
132 出力用バッファメモリ
140 雑音検出部
142 雑音基準点検出部
150 雑音低減部
152 補間信号生成部
154 信号補間部
156 第1の仮補間信号生成部
157 第2の仮補間信号生成部
158 前部補間信号生成部
159 後部補間信号生成部
160 信号出力部
s 音声信号
v 補間信号
p 第1の仮補間信号
q 第2の仮補間信号
t 前部補間信号
u 後部補間信号
PS 雑音開始点
PM 雑音中間点
PE 雑音終了点
SF 雑音前部区間
SR 雑音後部区間
LF 雑音前部区間長
LR 雑音後部区間長
DESCRIPTION OF
Claims (12)
前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
を備える、音声信号処理装置。 A first buffer memory for temporarily storing the input audio signal for each predetermined section;
A second buffer memory for temporarily storing the audio signal of the (n-1) th section immediately before the audio signal of the nth section stored in the first buffer memory;
Interpolation that generates an interpolated signal from at least the (n−1) th section audio signal stored in the second buffer memory when it is detected that the nth section audio signal contains noise. A signal generator;
Using the interpolation signal, a signal interpolation unit that interpolates the sound signal of the nth section including the noise;
An audio signal processing apparatus comprising:
前記補間信号生成部は、
前記n−1番目又は前記n番目の区間の一方若しくは双方の音声信号から第1の補間信号を生成する第1の補間信号生成部と、
前記n+1番目又は前記n番目の区間の一方若しくは双方の音声信号から第2の補間信号を生成する第2の補間信号生成部と、
を備え、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記開始点よりも前の所定区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による補間後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記終了点よりも後の所定区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による補間後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の後部の信号を、前記第1の補間信号を用いて補間し、前記第1の補間信号及び前記第2の補間信号による補間後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、請求項1に記載の音声信号処理装置。 A noise reference point detection unit for detecting a start point and an end point of the noise included in the audio signal;
The interpolation signal generator is
A first interpolation signal generating unit that generates a first interpolation signal from one or both of the n-1 and / or n-th audio signals;
A second interpolation signal generating unit that generates a second interpolation signal from one or both of the n + 1-th and n-th interval audio signals;
With
When the audio signal of the nth section is temporarily stored in the first buffer memory and it is detected that at least the audio signal of the nth section includes noise, the first interpolation signal The generating unit includes the n-1th section audio signal stored in the second buffer memory and the nth section audio signal stored in the first buffer memory. The first interpolation signal is generated from a signal in a predetermined interval before the start point, and the signal interpolation unit is configured to detect the noise front portion of the audio signals in the (n−1) th and nth intervals. A signal is interpolated using the first interpolation signal, and the audio signal of the n-th section after interpolation by the first interpolation signal is temporarily stored in the second buffer memory,
When the audio signal of the (n + 1) th section is temporarily stored in the first buffer memory, the second interpolation signal generation unit stores the first interpolation stored in the second buffer memory. Of the audio signal of the nth section after interpolation by the signal and the audio signal of the n + 1st section stored in the first buffer memory, from the signal of the predetermined section after the end point, A second interpolation signal is generated, and the signal interpolation unit outputs a signal behind the noise among the sound signal of the nth section and the sound signal of the n + 1th section after interpolation by the first interpolation signal. Interpolating using the first interpolation signal, and outputting the audio signal of the nth section after interpolation by the first interpolation signal and the second interpolation signal from the second buffer memory. The voice of item 1 No. processing apparatus.
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、少なくとも前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n番目の区間の音声信号のうち、前記雑音の前記開始点と前記中間点との間の長さに相当する分だけ前記開始点よりも前に位置する区間の信号から、前記第1の補間信号を生成し、前記信号補間部は、前記n−1番目及び前記n番目の区間の音声信号のうち前記雑音の前記開始点から前記中間点までの区間の信号を前記第1の補間信号に置換し、前記第1の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の補間信号生成部は、前記第2のバッファメモリに保存されている、前記第1の補間信号による置換後の前記n番目の区間の音声信号、及び前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号のうち、前記雑音の前記中間点と前記終了点との間の長さに相当する分だけ前記終了点よりも後に位置する区間の信号から、第2の補間信号を生成し、前記信号補間部は、前記第1の補間信号による置換後のn番目の区間の音声信号及び前記n+1番目の区間の音声信号のうち前記雑音の前記中間点から前記終了点までの区間の信号を前記第2の補間信号に置換し、前記第1の補間信号及び前記第2の補間信号による置換後の前記n番目の区間の音声信号を前記第2のバッファメモリから出力する、請求項2に記載の音声信号処理装置。 The noise reference point detection unit detects an intermediate point of the noise, detects the start point and the end point based on the intermediate point,
When the audio signal of the nth section is temporarily stored in the first buffer memory and it is detected that at least the audio signal of the nth section includes noise, the first interpolation signal The generating unit includes the n-1th section audio signal stored in the second buffer memory and the nth section audio signal stored in the first buffer memory. The signal interpolation unit generates the first interpolation signal from a signal in a section located before the start point by an amount corresponding to the length between the start point and the intermediate point of noise. Of the speech signals of the (n-1) th and nth intervals, the signal in the interval from the start point to the intermediate point of the noise is replaced with the first interpolation signal, and the replacement by the first interpolation signal The audio signal of the nth section after Temporarily stored in the second buffer memory,
When the audio signal of the (n + 1) th section is temporarily stored in the first buffer memory, the second interpolation signal generation unit stores the first interpolation stored in the second buffer memory. Of the sound signal of the nth section after replacement by a signal and the sound signal of the n + 1th section stored in the first buffer memory, between the intermediate point and the end point of the noise The second interpolation signal is generated from the signal in the section located after the end point by an amount corresponding to the length of the first interpolation signal, and the signal interpolation unit replaces the nth section with the first interpolation signal. Of the noise signal and the sound signal of the (n + 1) th section are replaced with the second interpolation signal in the section from the intermediate point to the end point of the noise, and the first interpolation signal and the second interpolation signal are replaced. After replacement by interpolation signal The audio signal of the serial n th interval outputted from said second buffer memory, the audio signal processing apparatus according to claim 2.
前記n−1番目の区間の音声信号から第1の仮補間信号を生成する第1の仮補間信号生成部と、
前記n+1番目の区間の音声信号から第2の仮補間信号を生成する第2の仮補間信号生成部と、
を備え、
前記n番目の区間の音声信号が前記第1のバッファメモリに一時保存され、かつ、前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、前記第1の仮補間信号生成部は、前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から前記第1の仮補間信号を生成し、前記第1の仮補間信号を前記第2のバッファメモリに一時保存し、
前記n+1番目の区間の音声信号が前記第1のバッファメモリに一時保存されたときに、前記第2の仮補間信号生成部は、前記第1のバッファメモリに保存されている前記n+1番目の区間の音声信号から第2の仮補間信号を生成し、前記信号補間部は、前記第2の仮補間信号、及び前記第2のバッファメモリに保存されている前記第1の仮補間信号から前記補間信号を生成し、前記n番目の区間の音声信号に換えて前記補間信号を前記第2のバッファメモリから出力する、請求項1に記載の音声信号処理装置。 The interpolation signal generator is
A first temporary interpolation signal generating unit that generates a first temporary interpolation signal from the audio signal of the (n-1) th section;
A second temporary interpolation signal generation unit that generates a second temporary interpolation signal from the audio signal of the (n + 1) th section;
With
When the audio signal of the nth section is temporarily stored in the first buffer memory and it is detected that the audio signal of the nth section includes noise, the first temporary interpolation signal The generation unit generates the first temporary interpolation signal from the audio signal of the (n−1) -th section stored in the second buffer memory, and the first temporary interpolation signal is generated in the second buffer. Temporarily store it in memory,
When the audio signal of the (n + 1) th section is temporarily stored in the first buffer memory, the second temporary interpolation signal generation unit is configured to store the n + 1th section stored in the first buffer memory. A second temporary interpolation signal is generated from the audio signal, and the signal interpolation unit performs the interpolation from the second temporary interpolation signal and the first temporary interpolation signal stored in the second buffer memory. 2. The audio signal processing device according to claim 1, wherein a signal is generated, and the interpolation signal is output from the second buffer memory in place of the n-th interval audio signal.
前記作動音は、前記駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音である、請求項6に記載の音声信号処理装置。 The sound generation unit is a driving device provided in the same housing as the sound collection unit,
The audio signal processing device according to claim 6, wherein the operation sound is a pulse-like mechanical drive sound that is generated when the operation of the drive device starts or ends.
前記収音部と同一の筐体に設けられ、雑音を発生させる発音部と、
前記収音部から入力された前記音声信号を所定区間ごとに一時保存する第1のバッファメモリと、
前記第1のバッファメモリに保存されているn番目の区間の音声信号よりも1つ前のn−1番目の区間の音声信号を一時保存する第2のバッファメモリと、
前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成する補間信号生成部と、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間する信号補間部と、
を備える、撮像装置。 A sound collection unit that converts external sound into an audio signal;
A sound generation unit that is provided in the same housing as the sound collection unit and generates noise;
A first buffer memory for temporarily storing the audio signal input from the sound collection unit for each predetermined section;
A second buffer memory for temporarily storing the audio signal of the (n-1) th section immediately before the audio signal of the nth section stored in the first buffer memory;
Interpolation that generates an interpolated signal from at least the (n−1) th section audio signal stored in the second buffer memory when it is detected that the nth section audio signal contains noise. A signal generator;
Using the interpolation signal, a signal interpolation unit that interpolates the sound signal of the nth section including the noise;
An imaging apparatus comprising:
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
を含む、音声信号処理方法。 Temporarily storing the audio signal of the (n−1) th section stored in the first buffer memory in the second buffer memory;
Temporarily storing the input audio signal of the nth section in the first buffer memory;
When it is detected that the nth section audio signal stored in the first buffer memory includes noise, at least the n−1th section stored in the second buffer memory. Generating an interpolated signal from the audio signal of the section;
Using the interpolated signal to interpolate the audio signal of the nth section containing the noise;
An audio signal processing method comprising:
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラム。 Temporarily storing the audio signal of the (n−1) th section stored in the first buffer memory in the second buffer memory;
Temporarily storing the input audio signal of the nth section in the first buffer memory;
When it is detected that the nth section audio signal stored in the first buffer memory includes noise, at least the n−1th section stored in the second buffer memory. Generating an interpolated signal from the audio signal of the section;
Using the interpolated signal to interpolate the audio signal of the nth section containing the noise;
A program that causes a computer to execute.
入力されるn番目の区間の音声信号を前記第1のバッファメモリに一時保存することと、
前記第1のバッファメモリに保存されている前記n番目の区間の音声信号に雑音が含まれることが検出されたときに、少なくとも前記第2のバッファメモリに保存されている前記n−1番目の区間の音声信号から補間信号を生成することと、
前記補間信号を用いて、前記雑音を含む前記n番目の区間の音声信号を補間することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
Temporarily storing the audio signal of the (n−1) th section stored in the first buffer memory in the second buffer memory;
Temporarily storing the input audio signal of the nth section in the first buffer memory;
When it is detected that the nth section audio signal stored in the first buffer memory includes noise, at least the n−1th section stored in the second buffer memory. Generating an interpolated signal from the audio signal of the section;
Using the interpolated signal to interpolate the audio signal of the nth section containing the noise;
A computer-readable recording medium on which a program for causing a computer to execute is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011185553A JP2013047710A (en) | 2011-08-29 | 2011-08-29 | Sound signal processing apparatus, imaging apparatus, sound signal processing method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011185553A JP2013047710A (en) | 2011-08-29 | 2011-08-29 | Sound signal processing apparatus, imaging apparatus, sound signal processing method, program, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013047710A true JP2013047710A (en) | 2013-03-07 |
Family
ID=48010744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011185553A Withdrawn JP2013047710A (en) | 2011-08-29 | 2011-08-29 | Sound signal processing apparatus, imaging apparatus, sound signal processing method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013047710A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019518229A (en) * | 2016-05-05 | 2019-06-27 | グーグル エルエルシー | Wind noise filtering in video content |
CN113936698A (en) * | 2021-09-26 | 2022-01-14 | 度小满科技(北京)有限公司 | Audio data processing method and device and electronic equipment |
-
2011
- 2011-08-29 JP JP2011185553A patent/JP2013047710A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019518229A (en) * | 2016-05-05 | 2019-06-27 | グーグル エルエルシー | Wind noise filtering in video content |
CN113936698A (en) * | 2021-09-26 | 2022-01-14 | 度小满科技(北京)有限公司 | Audio data processing method and device and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5741281B2 (en) | Audio signal processing apparatus, imaging apparatus, audio signal processing method, program, and recording medium | |
JP5594133B2 (en) | Audio signal processing apparatus, audio signal processing method, and program | |
JP5998483B2 (en) | Audio signal processing apparatus, audio signal processing method, program, and recording medium | |
JP2008263498A (en) | Wind noise reducing device, sound signal recorder and imaging apparatus | |
JP2012100216A (en) | Camera and moving image capturing program | |
US9224381B2 (en) | Audio signal processing apparatus and audio signal processing system | |
JP2012114842A (en) | Imaging device and drive noise removal device | |
JP6902961B2 (en) | Speech processing device and its control method | |
JP2013047710A (en) | Sound signal processing apparatus, imaging apparatus, sound signal processing method, program, and recording medium | |
JP5645393B2 (en) | Audio signal processing device | |
JP2012119996A (en) | Imaging apparatus and information processing system | |
US12094483B2 (en) | Sound processing apparatus and control method | |
JP7686439B2 (en) | Audio processing device, control method, and program | |
JP7580996B2 (en) | Audio processing device, control method, and program | |
JP7566552B2 (en) | Audio processing device, control method, and program | |
JP7608092B2 (en) | Audio processing device, control method, and program | |
US11729548B2 (en) | Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones | |
JP7604154B2 (en) | Audio processing device, control method, and program | |
JP2012165219A (en) | Imaging apparatus | |
JP2010134260A (en) | Electronic apparatus and voice processing method | |
JP2018207313A (en) | Audio processing device and method of controlling the same | |
JP6931296B2 (en) | Speech processing device and its control method | |
JP6886352B2 (en) | Speech processing device and its control method | |
JP2012054751A (en) | Audio processing device, integrated circuit including the same, audio recording device, and imaging apparatus | |
JP6071188B2 (en) | Audio signal processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141104 |