[go: up one dir, main page]

JP5696828B2 - Signal processing device - Google Patents

Signal processing device Download PDF

Info

Publication number
JP5696828B2
JP5696828B2 JP2010003792A JP2010003792A JP5696828B2 JP 5696828 B2 JP5696828 B2 JP 5696828B2 JP 2010003792 A JP2010003792 A JP 2010003792A JP 2010003792 A JP2010003792 A JP 2010003792A JP 5696828 B2 JP5696828 B2 JP 5696828B2
Authority
JP
Japan
Prior art keywords
audio signal
frequency
sound
channel
harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010003792A
Other languages
Japanese (ja)
Other versions
JP2011145326A (en
Inventor
広臣 四童子
広臣 四童子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010003792A priority Critical patent/JP5696828B2/en
Publication of JP2011145326A publication Critical patent/JP2011145326A/en
Application granted granted Critical
Publication of JP5696828B2 publication Critical patent/JP5696828B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

この発明は、入力されたオーディオ信号の内容を判別する信号処理装置に関する。   The present invention relates to a signal processing apparatus that determines the contents of an input audio signal.

近年、マルチチャンネルオーディオ装置が普及している。マルチチャンネルオーディオ装置は、5.1チャンネルなど、ステレオ2チャンネルよりも多いチャンネル(マルチチャンネル)のオーディオ信号を再生し、これらの信号を部屋の各所に設置された複数のスピーカから出力することによって、立体的な広がりのあるオーディオを再生する装置である(特許文献1)。   In recent years, multi-channel audio devices have become widespread. A multi-channel audio device reproduces audio signals of channels (multi-channel), such as 5.1 channels, which are more than two stereo channels, and outputs these signals from a plurality of speakers installed in various places in the room. This is an apparatus for reproducing audio having a three-dimensional spread (Patent Document 1).

従来のマルチチャンネルオーディオ信号では、各チャンネルにどのような内容のオーディオ信号を割り振るか(チャンネル割当)は、ほぼ統一されていた。すなわち、センタチャンネルにセリフ等の話声、フロント左右チャンネルにBGM等の楽音、サラウンド左右チャンネルに環境音や効果音などのその他音が割り当てられていた。   In the conventional multi-channel audio signal, the content of the audio signal assigned to each channel (channel assignment) is almost unified. That is, speech such as speech is assigned to the center channel, musical sounds such as BGM are assigned to the front left and right channels, and other sounds such as environmental sounds and sound effects are assigned to the surround left and right channels.

マルチチャンネルオーディオ装置は、再生したオーディオ信号に反射音や残響音を付加することにより、ホールなどの仮想的な空間の響きを作り出す音場制御を行う機能を有している。ただし、セリフ等の話声に反射音や残響音等の効果を強く付加すると、明瞭度が低下して出演者が何を話しているか聴き取りくくなってしまうため、話声が再生されるチャンネルの音場制御量を他のチャンネルよりも小さくするように設定されている。   The multi-channel audio device has a function of performing sound field control that creates a reverberation of a virtual space such as a hall by adding a reflected sound or a reverberation sound to a reproduced audio signal. However, if the effect of reflected sound or reverberation sound is strongly added to speech such as speech, the clarity will be reduced and it will be difficult to hear what the performer is talking about, so the channel where the speech is played back Is set to be smaller than the other channels.

上記従来のコンテンツの場合、センタチャンネルにセリフ等の話声が割り振られるのが一般であるため、従来のマルチチャンネルオーディオ装置では、センタチャンネルの音場制御量を小とし、他のチャンネルの音場制御量を大または中とするよう予め設定されていた。   In the case of the conventional content described above, speech such as speech is generally allocated to the center channel. Therefore, in the conventional multi-channel audio apparatus, the sound field control amount of the center channel is reduced and the sound field of other channels is reduced. The control amount was previously set to be large or medium.

しかし、地上波デジタル放送の開始等により、家庭で再生可能なマルチチャンネルオーディオのコンテンツも多様化しており、従来の映画のようなチャンネル割当でないものが増えている。すなわち、センタチャンネルでないフロントチャンネルやサラウンドチャンネルに話声が割り当てられたコンテンツも増えている。   However, with the start of terrestrial digital broadcasting and the like, multi-channel audio content that can be played back at home is diversifying, and the number of channels that are not assigned to channels as in conventional movies is increasing. In other words, content in which speech is assigned to front channels and surround channels that are not center channels is also increasing.

このようなマルチチャンネルオーディオコンテンツを従来の音場制御量の設定で再生すると、セリフ等の話声に強い反射音や残響効果が掛かってしまい、明瞭度が低下してしまう。また、センタチャンネルでBGM等の楽音が再生されている場合には、BGMに音場効果が掛からず雰囲気を盛り上げることができないなどの問題が生じる。   When such multi-channel audio content is reproduced with the conventional setting of the sound field control amount, a strong reflected sound or reverberation effect is applied to speech such as speech, and the clarity is lowered. Further, when a musical sound such as BGM is played on the center channel, there is a problem that the sound field effect is not applied to the BGM and the atmosphere cannot be raised.

そこで、どのチャンネルでどのような内容の音響が再生されているかを検出して、各チャンネルの音場制御量を調整することが考えられる。特に、どのチャンネルで話声が再生されているかを検出し、話声が再生されているチャンネルの音場制御量を小さくすることが考えられる。オーディオ信号から話声を検出する手法としては、従来より特許文献2、3のような方法が提案されていた。   Therefore, it is conceivable to detect what kind of sound is reproduced in which channel and adjust the sound field control amount of each channel. In particular, it is conceivable to detect in which channel the voice is being reproduced and to reduce the control amount of the sound field of the channel in which the voice is being reproduced. As methods for detecting speech from an audio signal, methods such as Patent Documents 2 and 3 have been proposed.

特許文献2には、有声音の時間波形の自己相関関数を用いて話声を検出することが記載されている。また、特許文献3には、音響信号における調波構造成分の占める占有度を瞬時周波数分析を用いて求め、これに基づいて音声区間を検出することが記載されている。   Japanese Patent Application Laid-Open No. H10-228667 describes detecting speech using an autocorrelation function of a time waveform of voiced sound. Japanese Patent Application Laid-Open No. H10-228867 describes that an occupancy degree of a harmonic structure component in an acoustic signal is obtained by using an instantaneous frequency analysis, and a voice section is detected based on this.

特開平8−275300号公報JP-A-8-275300

特公平4−55320号公報Japanese Examined Patent Publication No. 4-55320

特許第3892379号公報Japanese Patent No. 3892379

しかし、特許文献2の方式では、時間波形の自己相関関数に基づき話声を検出するのみなので、正弦波などの周期性はあるが調波構造を持たない信号を話声と誤検出してしまう問題点があった。また、特許文献3の方式では、毎フレーム、全周波数帯域について瞬時周波数分析を行う必要があり演算量が膨大である。
また、上記いずれの方式でも、話声、単音の楽音、合奏の楽音、その他音のそれぞれを判別することができなかった。
However, in the method of Patent Document 2, since the speech is only detected based on the autocorrelation function of the time waveform, a signal having a periodicity such as a sine wave but not having a harmonic structure is erroneously detected as the speech. There was a problem. Moreover, in the method of Patent Document 3, it is necessary to perform instantaneous frequency analysis for every frame and all frequency bands, and the amount of calculation is enormous.
In any of the above systems, it is impossible to discriminate between spoken voice, single tone, ensemble tone and other sounds.

この発明は、できるだけ簡略な処理でオーディオ信号の内容を正確に検出することを可能にした信号処理装置を提供することを目的とする。   An object of the present invention is to provide a signal processing apparatus that can accurately detect the contents of an audio signal by a process as simple as possible.

この発明は、オーディオ信号の音階周波数成分のエネルギーと全帯域成分のエネルギーとを比較することにより、前記オーディオ信号が楽音か否かを判定する楽音判定部と、楽音判定部により前記オーディオ信号が楽音と判定されなかったとき、前記オーディオ信号の調波性の有無を判定することにより、前記オーディオ信号が調波音であるかその他音であるかを判定する調波性判定部と、前記調波性判定部により、前記オーディオ信号が調波音であると判定されたとき、このオーディオ信号のピッチ周波数が音階周波数に一致しているか否か、または、前記ピッチ周波数の揺らぎの有無に基づいて、前記オーディオ信号が話声であるか楽音であるかを判定する話声/楽音判定部と、を備えたことを特徴とする。
上記発明において、前記調波性判定部が、短時間フーリエ変換による周波数スペクトルの自己相関関数に基づき調波性の有無を判定し、前記話声/楽音判定部は、前記自己相関関数に基づいて求められた概算のピッチ周波数付近のみで瞬時周波数分析を行うことにより、正確なピッチ周波数を求める手段を含むものであってもよい。
The present invention relates to a musical tone determination unit that determines whether or not the audio signal is a musical tone by comparing the energy of the scale frequency component of the audio signal with the energy of the entire band component, and the musical tone determination unit determines whether the audio signal is a musical tone when it is not determined that the by determining the presence or absence of harmonic of the audio signal, said audio signal determines harmonic determination section whether the other sound or a tone sound of waves, the harmonicity When the determination unit determines that the audio signal is a harmonic sound, the audio signal is based on whether the pitch frequency of the audio signal matches the scale frequency or the presence or absence of fluctuation of the pitch frequency. A speech / musical sound determination unit for determining whether the signal is a voice or a music is provided.
In the above invention, the harmonicity determination unit determines the presence or absence of harmonics based on an autocorrelation function of a frequency spectrum by short-time Fourier transform, and the speech / musical sound determination unit is based on the autocorrelation function. Means for obtaining an accurate pitch frequency by performing an instantaneous frequency analysis only in the vicinity of the obtained approximate pitch frequency may be included.

この発明によれば、比較的簡略な処理でオーディオ信号の内容(話声/楽音等)を判別することが可能になる。   According to the present invention, it is possible to discriminate the content (speech / musical tone, etc.) of an audio signal with a relatively simple process.

この発明の実施形態である信号処理部を含むオーディオ装置のブロック図Block diagram of an audio apparatus including a signal processing unit according to an embodiment of the present invention マルチチャンネルオーディオ信号のチャンネル割当の例を示す図The figure which shows the example of the channel allocation of a multichannel audio signal 同信号処理部のブロック図Block diagram of the signal processor 同信号処理部の内容判別部の処理を示すフローチャートThe flowchart which shows the process of the content discrimination | determination part of the signal processing part 内容判別部の楽音判定処理を説明する図The figure explaining the musical tone determination process of a content determination part 内容判別部の調波性判定処理を示すフローチャートFlowchart showing harmonic determination processing of content determination unit 各種オーディオ信号の周波数スペクトルおよび自己相関関数を示す図Diagram showing frequency spectrum and autocorrelation function of various audio signals 内容判別部の話声/楽音判定処理を示すフローチャートFlow chart showing speech / musical sound determination processing of content determination unit STFTの周波数binと瞬時周波数との相関を説明する図The figure explaining the correlation between the frequency bin of STFT and the instantaneous frequency

《オーディオ装置の構成》
図1はこの発明の実施形態である信号処理部を含むオーディオ装置のブロック図である。オーディオ装置は、コンテンツ再生装置2、オーディオアンプ1、複数のスピーカ3を有してている。オーディオアンプ1は、信号処理部4、増幅回路5を有している。
<Configuration of audio device>
FIG. 1 is a block diagram of an audio apparatus including a signal processing unit according to an embodiment of the present invention. The audio device has a content reproduction device 2, an audio amplifier 1, and a plurality of speakers 3. The audio amplifier 1 has a signal processing unit 4 and an amplifier circuit 5.

コンテンツ再生装置2は、たとえば映画等のDVDを再生するDVDプレイヤ、衛星、地上波のテレビ放送を受信するテレビ放送チューナ等で構成される。コンテンツ再生装置2は、マルチチャンネル(たとえば5.1チャンネル)のオーディオ信号をオーディオアンプ1に入力する。オーディオアンプ1の信号処理部4は、コンテンツ再生装置2から入力されたマルチチャンネルのオーディオ信号に対してイコライジング、音場制御等の処理を行ったのち、増幅回路5に入力する。増幅回路5は入力されたマルチチャンネルのオーディオ信号をそれぞれ個別に増幅して各チャンネルに対応するスピーカ3に出力する。   The content playback apparatus 2 is composed of, for example, a DVD player that plays back a DVD such as a movie, a satellite, and a TV broadcast tuner that receives a terrestrial TV broadcast. The content reproduction device 2 inputs a multi-channel (for example, 5.1 channel) audio signal to the audio amplifier 1. The signal processing unit 4 of the audio amplifier 1 performs processing such as equalizing and sound field control on the multi-channel audio signal input from the content reproduction device 2 and then inputs the processed signal to the amplifier circuit 5. The amplifying circuit 5 individually amplifies the input multi-channel audio signals and outputs them to the speakers 3 corresponding to the respective channels.

複数のスピーカ3はリスニングルームの各所に設置されており、各チャンネルの音響が各スピーカ3から放音されることにより、リスニングルームに広がりのある音場が形成される。   The plurality of speakers 3 are installed at various locations in the listening room, and sound of each channel is emitted from each speaker 3, thereby forming a sound field that spreads in the listening room.

《コンテンツのチャンネル割当例》
ここで、図2を参照して、コンテンツ再生装置2からオーディオアンプ1に入力されるマルチチャンネルオーディオ信号のチャンネル割当について説明する。
《Example of content channel assignment》
Here, with reference to FIG. 2, channel assignment of a multi-channel audio signal input from the content reproduction apparatus 2 to the audio amplifier 1 will be described.

図2(A)は、一般的な映画コンテンツのマルチチャンネルオーディオ信号のチャンネル割当を示す図である。この実施形態では5.1チャンネルのオーディオ信号を例にあげて説明する。5.1チャンネルのオーディオ信号は、センタチャンネルC、フロント左チャンネルFL、フロント右チャンネルFR、サラウンド(リア)左チャンネルSL、サラウンド(リア)右チャンネルSR、および、サブウーファチャンネルSWからなっている。このうち、サブウーファチャンネルSWは他のチャンネルの重低音信号を集めて構成されるため、コンテンツ再生装置2から入力されるチャンネル数は5チャンネルである。したがって以下では、センタチャンネルC、フロント左チャンネルFL、フロント右チャンネルFR、サラウンド左チャンネルSLおよびサラウンド右チャンネルSRの5チャンネルのチャンネル割当について説明する。   FIG. 2A is a diagram showing channel assignment of multi-channel audio signals of general movie content. In this embodiment, a 5.1 channel audio signal will be described as an example. The 5.1-channel audio signal includes a center channel C, a front left channel FL, a front right channel FR, a surround (rear) left channel SL, a surround (rear) right channel SR, and a subwoofer channel SW. Among these, since the subwoofer channel SW is configured by collecting the deep bass signals of other channels, the number of channels input from the content reproduction apparatus 2 is five. Therefore, in the following, channel assignment of five channels, center channel C, front left channel FL, front right channel FR, surround left channel SL, and surround right channel SR will be described.

一般的なコンテンツの場合、センタチャンネルCにセリフ等の話声、フロント左右チャンネルFL,FRにBGM等の楽音、サラウンド左右チャンネルSL,SRにその他音(効果音や環境音など)が割り当てられる。   In the case of general content, speech such as speech is assigned to the center channel C, musical sounds such as BGM are assigned to the front left and right channels FL and FR, and other sounds (such as sound effects and environmental sounds) are assigned to the surround left and right channels SL and SR.

一般的に、話声に対しては喋っている内容が不明瞭になるのを防止するため、音場効果を付与する量(音場制御量)を小さくする。また、BGM等の楽音に対しては、響きが豊かになるように音場制御量を大きくする。また、環境音や効果音等のその他音に対しては音場制御量を中くらいに設定する。したがってセンタチャンネルCの音場制御量は「小」、フロント左右チャンネルFL,FRの音場制御量は「大」、サラウンド左右チャンネルSL,SRの音場制御量は「中」に設定される。   In general, the amount of sound field effect (sound field control amount) is reduced in order to prevent the content spoken from being obscured from being spoken. For musical sounds such as BGM, the sound field control amount is increased so that the sound is rich. For other sounds such as environmental sounds and sound effects, the sound field control amount is set to a medium level. Accordingly, the sound field control amount of the center channel C is set to “small”, the sound field control amounts of the front left and right channels FL and FR are set to “large”, and the sound field control amounts of the surround left and right channels SL and SR are set to “medium”.

一方、同図(B)は、一般的な映画コンテンツ以外のコンテンツ、たとえば、デジタルテレビ放送のマルチチャンネルオーディオ信号のチャンネル割当の例を示す図である。この例では、センタチャンネルCは無音であり、フロント左チャンネルFLにセリフ等の話声とBGM、フロント右チャンネルFRにBGM等の楽音、サラウンド左右チャンネルSL,SRにその他音が割り当てられている。   On the other hand, FIG. 5B is a diagram showing an example of channel assignment of content other than general movie content, for example, a multi-channel audio signal for digital television broadcasting. In this example, the center channel C is silent, and speech and BGM such as speech are assigned to the front left channel FL, musical sounds such as BGM are assigned to the front right channel FR, and other sounds are assigned to the surround left and right channels SL and SR.

このような場合、センタチャンネルCの音場制御量は任意(入力信号がないため音場効果は実質0になる)、フロント左右チャンネルFL,FRの音場制御量は「小」、サラウンド左右チャンネルSL,SRの音場制御量は「中」に設定される。   In such a case, the sound field control amount of the center channel C is arbitrary (the sound field effect is substantially zero because there is no input signal), the sound field control amounts of the front left and right channels FL and FR are “small”, and the surround left and right channels. The sound field control amount of SL and SR is set to “medium”.

すなわち、フロント左チャンネルFLには、話声と楽音が合成して出力されているが、この場合には話声が優先し、音場制御量は「小」に設定される。また、フロント右チャンネルFRは楽音のみであるが、左右チャンネルの音場制御のバランスが崩れるとリスナーに不安定な印象を与える可能性があるため、フロント左チャンネルFLと同様に音場制御量を「小」にしている。なお、この場合フロント右チャンネルFRの音場制御量を楽音に合わせて「大」に設定してもよく、それらの中間をとって「中」に設定してもよい。   That is, the voice and musical sound are synthesized and output in the front left channel FL. In this case, the voice is given priority, and the sound field control amount is set to “small”. In addition, the front right channel FR is only a musical sound, but if the balance of the sound field control of the left and right channels is lost, it may give the listener an unstable impression. “Small”. In this case, the sound field control amount of the front right channel FR may be set to “large” in accordance with the musical sound, or may be set to “medium” in the middle of them.

《信号処理部の構成》
図3は、上記信号処理部4の構成例を示す図である。信号処理部4は、イコライジング、音場効果付与等種々の処理を行う機能部であるが、図3ではそのうち音場効果を付与する構成部のみを示している。入力部10は、センタチャンネル用入力部10C,フロント左チャンネル用入力部、フロント右チャンネル用入力部、サラウンド左チャンネル用入力部、サラウンド右チャンネル用入力部の5つの入力部からなっており、それぞれ各チャンネル(C、FL、FR、SL、SR)のオーディオ信号が入力される。
以下、上記入力部10と同じように、5チャンネル分並列に設けられている構成部については、個別チャンネル毎の説明は省略する。
<Configuration of signal processing unit>
FIG. 3 is a diagram illustrating a configuration example of the signal processing unit 4. The signal processing unit 4 is a functional unit that performs various processes such as equalizing and applying a sound field effect. FIG. 3 shows only a component that provides the sound field effect. The input unit 10 includes five input units, a center channel input unit 10C, a front left channel input unit, a front right channel input unit, a surround left channel input unit, and a surround right channel input unit. Audio signals of each channel (C, FL, FR, SL, SR) are input.
Hereinafter, as with the input unit 10 described above, the description of each individual channel is omitted for the components provided in parallel for five channels.

入力部10から入力されたオーディオ信号は、内容判別部14および遅延部11に入力される。内容判別部14は、5チャンネル分並列に設けられており、各チャンネルのオーディオ信号の内容を判別する。内容とは、オーディオ信号が、話声/楽音/その他音のいずれであるかを示す情報である。   The audio signal input from the input unit 10 is input to the content determination unit 14 and the delay unit 11. The content determination unit 14 is provided in parallel for five channels, and determines the content of the audio signal of each channel. The content is information indicating whether the audio signal is a voice / musical sound / other sound.

内容判別部14は、調波構造の有無や、変調スペクトル、倍音構造、周波数変化率などを測定することで、話声/音楽/その他音を判別する。内容判別部14の判別処理の詳細は後述する。   The content discriminating unit 14 discriminates speech / music / other sounds by measuring the presence / absence of a harmonic structure, modulation spectrum, harmonic structure, frequency change rate, and the like. Details of the determination processing of the content determination unit 14 will be described later.

遅延部11は、内容判別部14がオーディオ信号の内容を判別するために必要な時間分、オーディオ信号を遅延させる。これにより、内容判別部14の判別結果に基づく音場制御の制御遅れを解消している。   The delay unit 11 delays the audio signal by a time necessary for the content determination unit 14 to determine the content of the audio signal. Thereby, the control delay of the sound field control based on the determination result of the content determination unit 14 is eliminated.

内容判別部14の判別結果は、係数制御部15に入力される。係数制御部15は、各チャンネルのオーディオ信号の内容に応じて各チャンネルのオーディオ信号に対する音場制御量を決定する。音場制御量は図2に示したようなルールで決定される。内容判別部14は、各チャンネルのオーディオ信号に対する音場制御量を決定し、その音場制御量に対応する入力レベルにオーディオ信号を制御する係数を出力する。係数は係数乗算部16に入力される。   The determination result of the content determination unit 14 is input to the coefficient control unit 15. The coefficient control unit 15 determines a sound field control amount for the audio signal of each channel according to the contents of the audio signal of each channel. The sound field control amount is determined by the rules as shown in FIG. The content determination unit 14 determines a sound field control amount for the audio signal of each channel, and outputs a coefficient for controlling the audio signal to an input level corresponding to the sound field control amount. The coefficient is input to the coefficient multiplier 16.

係数乗算部16は、遅延部11で遅延されたオーディオ信号に係数制御部15から入力された係数を乗算して加算部17に入力する。係数乗算部16は5チャンネル分並列に設けられている。加算部17は、それぞれ係数が乗算された5チャンネルのオーディオ信号を加算合成する。加算合成されたオーディオ信号は、レベル制御部18でレベルが制御されたのち、音場効果生成部19により、初期反射音、残響音を含む音場効果が付与される。   The coefficient multiplier 16 multiplies the audio signal delayed by the delay unit 11 by the coefficient input from the coefficient controller 15 and inputs the result to the adder 17. The coefficient multiplication unit 16 is provided in parallel for five channels. The adder 17 adds and synthesizes 5-channel audio signals each multiplied by a coefficient. The level of the added and synthesized audio signal is controlled by the level control unit 18, and then a sound field effect including an initial reflection sound and a reverberation sound is applied by the sound field effect generation unit 19.

音場効果生成部19に入力されるオーディオ信号のレベルが大きいほど、音場効果生成部19によって生成される音場効果音(反射音、残響音)は大きくなる。したがって、係数制御部15が生成する係数により、各チャンネルのオーディオ信号に付与される音場効果の程度が制御される。   As the level of the audio signal input to the sound field effect generation unit 19 increases, the sound field effect sound (reflected sound, reverberation sound) generated by the sound field effect generation unit 19 increases. Therefore, the degree of the sound field effect given to the audio signal of each channel is controlled by the coefficient generated by the coefficient control unit 15.

音場効果生成部19は、音場データ20に基づき、ホールや室内などにおける音の響きを再現する。すなわち、ホールや室内で生じる初期反射音や残響音を生成する。この処理は、空間伝搬や反射に伴う周波数特性の変化を模擬するためのフィルタ処理や遅延と係数乗算による初期反射音の生成処理および後部残響音の生成処理などを含んでいる。   Based on the sound field data 20, the sound field effect generator 19 reproduces the sound of the sound in a hall or a room. That is, the initial reflection sound and reverberation sound generated in the hall and the room are generated. This processing includes filter processing for simulating changes in frequency characteristics due to spatial propagation and reflection, initial reflected sound generation processing by delay and coefficient multiplication, rear reverberation sound generation processing, and the like.

音場効果生成部19で生成された音場効果音は、係数乗算部21および加算部12を介してドライのオーディオ信号に加算される。係数乗算部21、加算部12も5チャンネル分並列に設けられている。一般的にセリフ等の話声が出力されるチャンネルには音場効果音を加算しないほうが話声の明瞭度が高くなるため、係数乗算部21により、話声のチャンネルへの音場効果音の加算ゲインを0にする。   The sound field effect sound generated by the sound field effect generation unit 19 is added to the dry audio signal via the coefficient multiplication unit 21 and the addition unit 12. A coefficient multiplier 21 and an adder 12 are also provided in parallel for five channels. In general, since the clarity of speech is higher when a sound field effect sound is not added to a channel such as a speech output channel, the coefficient multiplier 21 causes the sound field effect sound to be transmitted to the speech channel. Set the addition gain to 0.

係数乗算部21に入力される係数も係数制御部15が設定すればよい。話声が出力されるチャンネルの係数を“0”とし、他のチャンネルの係数を“1”とすればよいが、各チャンネルごとに係数の値を“0”と“1”の中間値に変化させてもよい。   The coefficient input to the coefficient multiplier 21 may be set by the coefficient controller 15. The coefficient of the channel where the voice is output can be set to “0” and the coefficient of the other channels can be set to “1”, but the coefficient value is changed to an intermediate value between “0” and “1” for each channel. You may let them.

このような制御により、各チャンネルにおいて、セリフ以外を再生している期間は広く豊かな音場効果を付与しつつ、セリフが再生された場合にはセリフに対する音場効果の量を抑えることで響きすぎを抑え、豊かな音場効果と明瞭なセリフを両立することができる。   With such control, each channel plays a wide and rich sound field effect during the period other than the line is played, and when the line is played, it reduces the amount of sound field effect on the line. It is possible to suppress excessive noise and achieve both a rich sound field effect and clear lines.

《内容判別部14の処理の説明》
図4〜図9を参照して内容判別部14の内容判別処理について説明する。この処理は、1フレーム(40ms)毎に実行される。調波性判定処理(S4)では自フレームのほか、前後3フレームのデータを併せて用いるため、判別処理は3フレーム分遅延する。遅延部11がこの判別処理の遅れ時間だけオーディオ信号を遅延させる。
<< Description of Processing of Content Determination Unit 14 >>
The content determination process of the content determination unit 14 will be described with reference to FIGS. This process is executed every frame (40 ms). In the harmonic determination process (S4), in addition to the self frame, the data of the three frames before and after are used together, so the determination process is delayed by three frames. The delay unit 11 delays the audio signal by the delay time of this discrimination process.

図4は、内容判別処理の全体処理を示すフローチャートである。まず、楽音判定処理を行う(S1)。楽音判定処理とは、オーディオ信号の周波数成分のうち、音階周波数の成分が占める比率を測定する処理である。この楽音判定の詳細は図5を参照して後述する。楽音判定処理により楽音であると判定された場合(S2でYES)には、内容判別結果として「楽音」を出力して(S3)、処理を終える。   FIG. 4 is a flowchart showing the entire content determination process. First, a musical tone determination process is performed (S1). The musical tone determination process is a process of measuring a ratio occupied by a scale frequency component among the frequency components of the audio signal. Details of the tone determination will be described later with reference to FIG. If it is determined by the tone determination process that the tone is a tone (YES in S2), “musical tone” is output as the content determination result (S3), and the process ends.

楽音判定処理により楽音と判定されなかった場合(S2でNO)には、調波性判定処理を行う(S4)。調波性判定処理とは、オーディオ信号が調波性を有するか、すなわち、基音およびその整数倍の倍音成分からなるスペクトル構造を有しているかを判定する処理である。調波性判定処理の詳細は図6を参照して後述する。調波性判定処理により調波性なしと判定された場合(S5でNO)には、内容判別結果として「その他音」を出力する(S6)。一方、調波性判定処理によ調波性ありと判定された場合(S5でYES)、そのオーディオ信号は話声または楽音であると考えられるため、話声/楽音判定処理(S7)を行う。
すなわち、話声や楽音は、調波性を有するが、環境音や効果音などの音響は調波性を持たないためである。
If the musical sound is not determined by the musical sound determination process (NO in S2), the harmonic determination process is performed (S4). The harmonic determination process is a process for determining whether the audio signal has harmonic characteristics, that is, whether it has a spectral structure including a fundamental tone and an overtone component that is an integral multiple of the fundamental tone. Details of the harmonic determination processing will be described later with reference to FIG. If it is determined by the harmonic determination process that there is no harmonic (NO in S5), “other sound” is output as the content determination result (S6). On the other hand, that there is by Ri harmonicity the harmonic determination process when it is determined (YES in S5), since the audio signal is considered to be speech or tone, speech / tone determination processing (S7) Do.
That is, voices and musical sounds have harmonics, but sounds such as environmental sounds and sound effects do not have harmonics.

話声/楽音判定処理では、正確な基音周波数(ピッチ)を算出し、このピッチが音階周波数に一致しているか、または、ピッチに大きな揺らぎがないかに基づき、このオーディオ信号が楽音であるか話声であるかを判定する。この話声/楽音判定処理の詳細は図7を参照して後述する。判定結果が話声であった場合には、内容判別結果として「話声」を出力する(S9)。判定結果が楽音であった場合には、内容判別結果として「楽音」を出力する(S10)。   In the speech / musical sound determination process, an accurate fundamental frequency (pitch) is calculated, and whether the audio signal is a musical sound based on whether the pitch matches the scale frequency or there is no large fluctuation in the pitch. Determine if it is a voice. Details of the voice / musical tone determination processing will be described later with reference to FIG. If the determination result is speech, “speech” is output as the content determination result (S9). If the determination result is a musical sound, “musical sound” is output as the content determination result (S10).

図5(A)は、楽音判定処理を示すフローチャートである。この処理では、オーディオ信号の全周波数帯域のエネルギーに占める音階周波数成分のエネルギーを測定することにより、このオーディオ信号が楽音(特に合奏の楽音)であるか否かを判定する。   FIG. 5A is a flowchart showing a musical tone determination process. In this process, it is determined whether or not the audio signal is a musical tone (particularly a ensemble musical tone) by measuring the energy of the scale frequency component in the energy of the entire frequency band of the audio signal.

まず、オーディオ信号の中の音階周波数成分のエネルギーおよび全周波数帯域のエネルギーを測定する(S20)。オーディオ信号のエネルギーを測定する機能部のブロック図を図5(B)に示す。音階周波数成分のエネルギー測定は、特定オクターブの12音のエネルギーを加算したものである。特定オクターブとしては、メロディが演奏されるオクターブ、たとえばC3〜B3のオクターブを用いればよい。このため、C〜Bの12半音階のBPFフィルタを設ける。各フィルタを通過した周波数成分をそれぞれ積分して、各周波数成分のエネルギーを求め、これらを加算する。この加算されたものが音階周波数成分のエネルギーである。一方、オーディオ信号を直接積分して全周波数帯域のエネルギーを求める。   First, the energy of the scale frequency component in the audio signal and the energy of the entire frequency band are measured (S20). FIG. 5B shows a block diagram of a functional unit that measures the energy of the audio signal. The energy measurement of the scale frequency component is obtained by adding the energy of 12 sounds of a specific octave. As the specific octave, an octave in which a melody is played, for example, a C3 to B3 octave may be used. For this reason, a BPF filter having 12 to 12 scales of C to B is provided. The frequency components that have passed through each filter are integrated to obtain the energy of each frequency component, and these are added. This sum is the energy of the scale frequency component. On the other hand, the audio signal is directly integrated to obtain energy in the entire frequency band.

S20で求められた音階周波数成分のエネルギーと全周波数帯域成分のエネルギーとを比較し(S21)、その比率が所定の比率以上であった場合、すなわち、音階周波数成分のエネルギーの占める比率が所定値以上であった場合には(S22でYES)、判定結果として「楽音」を出力する(S23)。一方、音階周波数成分のエネルギーの占める比率が所定値に満たなかった場合には(S22でNO)、判定結果を出力しないで終了する。   The energy of the scale frequency component obtained in S20 and the energy of all frequency band components are compared (S21). If the ratio is equal to or greater than a predetermined ratio, that is, the ratio of the scale frequency component energy is a predetermined value. If so ("YES" in S22), "musical sound" is output as the determination result (S23). On the other hand, when the ratio of the energy of the scale frequency component does not reach the predetermined value (NO in S22), the process ends without outputting the determination result.

このように、複数のBPFフィルタ処理およひ積分処理のみでオーディオ信号が楽音であるか否かが判定可能であるため、この処理でオーディオ信号が楽音と判定されれば、図4のS4以下の処理を省略することができ、処理負荷を大幅に軽減することができる。また、この楽音判定処理では、明確な調波性が現れない複数楽器による合奏の楽音であっても、音階周波数に多くの成分が現れるため、容易に検出可能である。   Thus, since it is possible to determine whether or not the audio signal is a musical tone only by a plurality of BPF filter processing and integration processing, if the audio signal is determined to be a musical tone by this processing, S4 and subsequent steps in FIG. This processing can be omitted, and the processing load can be greatly reduced. Further, in this musical tone determination process, even a musical tone of an ensemble composed of a plurality of musical instruments that does not exhibit a clear harmonic characteristic can be easily detected because many components appear in the scale frequency.


図6は、調波判定処理を示すフローチャートである。この処理では、オーディオ信号を短時間フーリエ変換(STFT)し、その周波数スペクトルの自己相関を求めることによって、調波性の有無およびピーク周波数(概略のピッチ周波数)を求める。

FIG. 6 is a flowchart showing harmonic determination processing. In this process, the audio signal is subjected to short-time Fourier transform (STFT), and the autocorrelation of its frequency spectrum is obtained to obtain the presence / absence of harmonics and the peak frequency (approximate pitch frequency).

ここで、STFTは、現フレームのデータとその前後2フレームを併せた5フレーム分のデータを用いて行う。また、現フレームにおけるSTFT結果に前フレームのSTFT結果、次フレームのSTFT結果を加えた平均値を現フレームの周波数スペクトルP(T)として用いる。したがって、現フレームの周波数スペクトルが求められるのは、現フレームから3フレーム後である。   Here, the STFT is performed using data for five frames including the data of the current frame and the two frames before and after that. Further, an average value obtained by adding the STFT result of the previous frame and the STFT result of the next frame to the STFT result of the current frame is used as the frequency spectrum P (T) of the current frame. Therefore, the frequency spectrum of the current frame is obtained three frames after the current frame.

このように複数フレームの周波数スペクトルを平均することにより、継続的に存在する周波数成分が強調される。すなわち、背景音等のノイズ成分は継続的に存在しないため、スペクトル上で強調されないが、話声や楽音等の継続的に存在する成分は、スペクトル上でその調波成分が強調される。これにより、オーディオ信号中に背景音に埋もれたレベルの小さい話声や楽音が存在しても、これを検出してピーク周波数の測定が可能になる。   By averaging the frequency spectra of a plurality of frames in this way, the frequency components that are continuously present are emphasized. That is, since noise components such as background sounds do not exist continuously, they are not emphasized on the spectrum. However, components that exist continuously such as speech and musical sounds have their harmonic components emphasized on the spectrum. As a result, even if a voice or musical sound with a low level buried in the background sound is present in the audio signal, it is possible to detect this and measure the peak frequency.

図6において、まず、上述の手法で短時間フーリエ変換を行い、現フレーム(時刻:T)の周波数スペクトルP(T)を求める(S31)。図7(A)にFFT結果の例を示す。この例は話声のみの信号スペクトルである。   In FIG. 6, first, short-time Fourier transform is performed by the above-described method to obtain a frequency spectrum P (T) of the current frame (time: T) (S31). FIG. 7A shows an example of the FFT result. This example is a signal spectrum of speech only.

次にこの周波数スペクトルの自己相関を検出する(S32)。図7(B)、(C)、(D)に自己相関関数の例を示す。図7(B)は、図7(A)に示した話声のみの周波数スペクトルの自己相関関数であり、自己相関が明確に現れている。図7(C)は話声および話声以外の成分をふくむオーディオ信号の周波数スペクトルの自己相関関数の例を示す図である。話声が占める周波数帯域は狭いため、周波数差が小さい範囲では自己相関が現れているが、周波数差が大きい範囲では自己相関が乱れている。図7(D)はその他音の周波数スペクトルの自己相関関数の例を示す図である。このように、その他音は調波性がないため、周波数スペクトルの自己相関が全くない。   Next, the autocorrelation of this frequency spectrum is detected (S32). 7B, 7C and 7D show examples of autocorrelation functions. FIG. 7B shows the autocorrelation function of the frequency spectrum of only the speech shown in FIG. 7A, and the autocorrelation clearly appears. FIG. 7C is a diagram illustrating an example of an autocorrelation function of the frequency spectrum of an audio signal including speech and components other than speech. Since the frequency band occupied by the voice is narrow, autocorrelation appears in the range where the frequency difference is small, but the autocorrelation is disturbed in the range where the frequency difference is large. FIG. 7D is a diagram showing an example of the autocorrelation function of the frequency spectrum of other sounds. As described above, since the other sounds do not have harmonics, there is no autocorrelation of the frequency spectrum.

自己相関関数の最初のピークを検出し、そのピークの周波数差をピーク周波数Faとする(S33)。図7(D)に例示したようにピーク周波数Faが検出できなかった場合は(S34でNO)、「調波性なし」の判定結果を出力して(S39)、この処理を終了する。   The first peak of the autocorrelation function is detected, and the frequency difference between the peaks is set as the peak frequency Fa (S33). As illustrated in FIG. 7D, when the peak frequency Fa cannot be detected (NO in S34), a determination result of “no harmonics” is output (S39), and this process ends.

ピーク周波数Faが検出された場合には、このピーク周波数Faと直前のフレーム(T−3)のピッチ周波数F(T−3)とを比較する(S35)。その差が所定値以下(ほぼ一致)であった場合には(S36でYES)、ピーク周波数Faをオーディオ信号の今回のフレーム(F−2)におけるピッチ周波数F(T−2)とする(S37)。そして、判定結果「調波性あり」、ピッチ周波数「F(T−2)」を出力して(S38)、調波性判定処理を終了する。   When the peak frequency Fa is detected, the peak frequency Fa is compared with the pitch frequency F (T-3) of the immediately preceding frame (T-3) (S35). If the difference is less than or equal to the predetermined value (substantially coincides) (YES in S36), the peak frequency Fa is set to the pitch frequency F (T-2) in the current frame (F-2) of the audio signal (S37). ). Then, the determination result “having harmonics” and the pitch frequency “F (T-2)” are output (S38), and the harmonics determination process is terminated.

一方、FaとF(T−3)との差が所定値より大きかった場合には(S36でNO)、「調波性なし」の判定結果を出力して(S39)、処理動作を終了する。   On the other hand, if the difference between Fa and F (T-3) is greater than the predetermined value (NO in S36), the determination result of “no harmonics” is output (S39), and the processing operation is terminated. .

話声、楽音の調波性は瞬間的に現れて消滅するものではなく複数フレーム継続するものであるため、今回のピーク周波数を前フレームのピッチ周波数と比較してほぼ一致したときのみ調波性ありと判定して誤検出を防止している。   The harmonic nature of speech and musical sound does not appear and disappear instantaneously, but continues for multiple frames, so the harmonic nature is only when the peak frequency of this time is almost the same as the pitch frequency of the previous frame. It is judged that there is, and false detection is prevented.

図8は話声/楽音判定処理を示すフローチャートである。この処理では、今回の判別対象フレームの正確なピッチ周波数を算出し、このピッチ周波数が音階周波数に一致しているか、または、ピッチ周波数に大きな揺らぎがないかに基づき、このオーディオ信号が楽音であるか話声であるかを判定している。   FIG. 8 is a flowchart showing the voice / musical tone determination process. In this process, the exact pitch frequency of the current discrimination target frame is calculated, and whether this audio signal is a musical sound based on whether this pitch frequency matches the scale frequency or if there is no large fluctuation in the pitch frequency. It is determined whether the voice is spoken.

まず、図6の処理で得たSTFT周波数スペクトルおよびその周波数分解能で得られたSTFT分解能の精度のピッチ周波数F(T−2)を用いて、瞬時周波数を分析し、これに基づいて得られた正確なピッチ周波数をFe(T−2)とする(S50)。すなわち、全周波数帯域について瞬時周波数分析をするのではなく、STFTで得られた概算のピッチ周波数F(T−2)付近のみで瞬時周波数分析を行う。これにより、瞬時周波数分析における処理量を大幅に少なくすることができる。   First, the instantaneous frequency was analyzed using the STFT frequency spectrum obtained by the processing of FIG. 6 and the pitch frequency F (T-2) of the accuracy of the STFT resolution obtained by the frequency resolution, and obtained based on this. An accurate pitch frequency is set to Fe (T-2) (S50). That is, the instantaneous frequency analysis is not performed for the entire frequency band, but the instantaneous frequency analysis is performed only in the vicinity of the approximate pitch frequency F (T-2) obtained by the STFT. Thereby, the processing amount in the instantaneous frequency analysis can be greatly reduced.

瞬時周波数は、STFTの各周波数binの信号成分波形の位相φの時間微分φ′として求められる。通常、瞬時周波数φ′は、各周波数binの周波数とほぼ一致し、図9(A)のような一次関数的な相関を示すが、STFTを行ったフレームの信号波形に強いパワーを持った周波数成分Feがあると、そのSTFTにおけるその周波数成分Fe近傍の周波数binの瞬時周波数φ′がほぼ一定値になることが知られている。そして、この場合、STFTで求めた概算のピッチ周波数Fと、上述の相関曲線のほぼ水平になっている部分との交点の縦軸値が正確なピッチ周波数Feであると推定することができる。このようにして、0.2Hz精度の正確なピッチ周波数Fe(T−2)を求めることが可能になる。   The instantaneous frequency is obtained as a time derivative φ ′ of the phase φ of the signal component waveform of each frequency bin of the STFT. Usually, the instantaneous frequency φ ′ substantially coincides with the frequency of each frequency bin and shows a linear function correlation as shown in FIG. 9A. It is known that when there is a component Fe, the instantaneous frequency φ ′ of the frequency bin in the vicinity of the frequency component Fe in the STFT becomes a substantially constant value. In this case, it can be estimated that the vertical value of the intersection of the approximate pitch frequency F obtained by the STFT and the substantially horizontal portion of the correlation curve is the accurate pitch frequency Fe. In this way, it is possible to obtain an accurate pitch frequency Fe (T-2) with an accuracy of 0.2 Hz.

この正確なピッチ周波数Fe(T−2)音階周波数とを比較する(S51)。この処理では、楽音の存在しえるオクターブ範囲の全12半音階の周波数をFe(T−2)と比較する。これらがほぼ一致した場合には(S52でYES)、オーディオ信号は楽音であるとして、楽音の判定結果を出力し(S56)、処理を終了する。一方、Fe(T−2)と音階周波数とが一致しない場合には、前フレームで求めた正確なピッチ周波数Fe(T−3)と今回の正確なピッチ周波数Fe(T−2)とを比較する(S53)。前回の正確なピッチ周波数Fe(T−3)と今回の正確なピッチ周波数Fe(T−2)とがほぼ一致する場合には(S54でYES)、ピッチ周波数の揺らぎが殆どないため楽音の判定結果を出力する(S56)。一方、前回の正確なピッチ周波数Fe(T−3)と今回の正確なピッチ周波数Fe(T−2)とが一致しない場合には(S54でNO)、ピッチに揺らぎがあるため話声の判定結果を出力する(S55)。 The accurate pitch frequency Fe (T-2) is compared with the scale frequency (S51). In this process, the frequencies of all 12 semitones in the octave range where a musical sound can exist are compared with Fe (T-2). If they substantially match (YES in S52), it is determined that the audio signal is a musical tone, and a musical tone determination result is output (S56), and the process is terminated. On the other hand, when Fe (T-2) does not match the scale frequency, the accurate pitch frequency Fe (T-3) obtained in the previous frame is compared with the current accurate pitch frequency Fe (T-2). (S53). If the previous accurate pitch frequency Fe (T-3) and the current accurate pitch frequency Fe (T-2) are substantially the same (YES in S54), there is almost no fluctuation in the pitch frequency, so that the determination of the musical tone is made. The result is output (S56). On the other hand, if the previous accurate pitch frequency Fe (T-3) and the current accurate pitch frequency Fe (T-2) do not match (NO in S54), the voice is judged because the pitch fluctuates. The result is output (S55).

すなわち、楽音は、安定した周波数の音響であるが、話声は周波数の抑揚があり、比較的大きいピッチ変動(揺らぎ)があるからである。なお、前フレームの正確なピッチFeがない(前フレームでこの処理が行われなかった)場合には、S54では不一致と判定される。なお、人声に限らず、動物の鳴き声であってもこの話声/楽音判定処理で話声と判定することが可能である。   That is, the musical sound is a sound having a stable frequency, but the voice has a frequency inflection, and there is a relatively large pitch fluctuation (fluctuation). If there is no accurate pitch Fe of the previous frame (this process was not performed in the previous frame), it is determined in S54 that they do not match. Note that it is possible to determine not only a human voice but also an animal cry as a voice by this voice / musical sound determination process.

また、楽音判定処理(図4のS1または図5の処理)で楽音と判定されず、この話声/楽音判定処理で楽音と判定されるオーディオ信号とは、たとえばフルート1本など単音の演奏であるため音階音の占めるエネルギーが小さい楽音や、民族楽器等の西洋12音音階に一致しないピッチの楽器等である。   The audio signal that is not determined as a musical sound by the musical sound determination process (S1 of FIG. 4 or the process of FIG. 5) and is determined as a musical sound by the speech / musical sound determination process is, for example, a single tone performance such as one flute. Therefore, it is a musical sound with a small energy occupied by a musical scale, or a musical instrument with a pitch that does not match the western 12-tone musical scale such as a folk instrument.

なお、この実施形態では、全てのチャンネルに内容判別部14を設け、全てのチャンネルの内容を判別しているが、必ずしも全てのチャンネルの内容を判別する必要はなく、一部のチャンネル(たとえばセンタチャンネル)のみ内容を判別してもよい。また、話声/楽音/その他音の全ての内容を判別する必要はなく、一部の内容(たとえば話声)のみを判別してもよい。   In this embodiment, the contents discriminating unit 14 is provided for all the channels and the contents of all the channels are discriminated. However, it is not always necessary to discriminate the contents of all the channels. Only the channel) may be discriminated. Further, it is not necessary to discriminate all the contents of the voice / musical sound / other sounds, and only a part of the contents (for example, the voice) may be discriminated.

《尚書き》
上記実施形態では、オーディオ信号に初期反射音や残響音を付加する音場効果について説明したが、本発明における信号処理は音場効果に限定されない。
《Still Write》
In the above embodiment, the sound field effect of adding the initial reflected sound or the reverberation sound to the audio signal has been described, but the signal processing in the present invention is not limited to the sound field effect.

また、上記実施形態では、5.1チャンネルのマルチオーディオ信号を例に挙げて説明したが、マルチチャンネルオーディオ信号のチャンネル数は5.1チャンネルに限定されない。   In the above embodiment, a 5.1 channel multi-audio signal has been described as an example. However, the number of channels of the multi-channel audio signal is not limited to 5.1 channels.

1 オーディオアンプ
4 信号処理部
14 内容判別部
15 係数制御部
16 係数乗算部
19 音場効果生成部
DESCRIPTION OF SYMBOLS 1 Audio amplifier 4 Signal processing part 14 Content determination part 15 Coefficient control part 16 Coefficient multiplication part 19 Sound field effect production | generation part

Claims (2)

オーディオ信号の音階周波数成分のエネルギーと全帯域成分のエネルギーとを比較することにより、前記オーディオ信号が楽音か否かを判定する楽音判定部と、
楽音判定部により前記オーディオ信号が楽音と判定されなかったとき、前記オーディオ信号の調波性の有無を判定することにより、前記オーディオ信号が調波音であるかその他音であるかを判定する調波性判定部と、
前記調波性判定部により、前記オーディオ信号が調波音であると判定されたとき、このオーディオ信号のピッチ周波数が音階周波数に一致しているか否か、または、前記ピッチ周波数の揺らぎの有無に基づいて、前記オーディオ信号が話声であるか楽音であるかを判定する話声/楽音判定部と、
を備えた信号処理装置。
A musical sound determination unit that determines whether the audio signal is a musical sound by comparing the energy of the scale frequency component of the audio signal with the energy of the entire band component;
A harmonic that determines whether the audio signal is harmonic or other sound by determining whether or not the audio signal is harmonic when the audio signal is not determined by the musical sound determination unit. A sex determination unit;
When the audio signal is determined to be a harmonic sound by the harmonic determination unit, whether or not the pitch frequency of the audio signal matches the scale frequency, or based on the presence or absence of fluctuation of the pitch frequency A voice / musical sound determination unit for determining whether the audio signal is a voice or a music;
A signal processing apparatus comprising:
前記調波性判定部は、短時間フーリエ変換による周波数スペクトルの自己相関関数に基づき調波性の有無を判定し、
前記話声/楽音判定部は、前記自己相関関数に基づいて求められた概算のピッチ周波数付近のみで瞬時周波数分析を行うことにより、正確なピッチ周波数を求める手段を含む
請求項1に記載の信号処理装置。
The harmonic determination unit determines the presence or absence of harmonics based on the autocorrelation function of the frequency spectrum by short-time Fourier transform,
The signal according to claim 1, wherein the speech / musical sound determination unit includes means for obtaining an accurate pitch frequency by performing an instantaneous frequency analysis only in the vicinity of an approximate pitch frequency obtained based on the autocorrelation function. Processing equipment.
JP2010003792A 2010-01-12 2010-01-12 Signal processing device Expired - Fee Related JP5696828B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010003792A JP5696828B2 (en) 2010-01-12 2010-01-12 Signal processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010003792A JP5696828B2 (en) 2010-01-12 2010-01-12 Signal processing device

Publications (2)

Publication Number Publication Date
JP2011145326A JP2011145326A (en) 2011-07-28
JP5696828B2 true JP5696828B2 (en) 2015-04-08

Family

ID=44460269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010003792A Expired - Fee Related JP5696828B2 (en) 2010-01-12 2010-01-12 Signal processing device

Country Status (1)

Country Link
JP (1) JP5696828B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6270136B2 (en) * 2014-03-10 2018-01-31 公立大学法人広島市立大学 Active noise control device and active noise control method
CN114203163A (en) * 2022-02-16 2022-03-18 荣耀终端有限公司 Audio signal processing method and device

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3355598B2 (en) * 1996-09-18 2002-12-09 日本電信電話株式会社 Sound source separation method, apparatus and recording medium
JP3112654B2 (en) * 1997-01-14 2000-11-27 株式会社エイ・ティ・アール人間情報通信研究所 Signal analysis method
JP3892379B2 (en) * 2002-09-20 2007-03-14 日本電信電話株式会社 Harmonic structure section estimation method and apparatus, harmonic structure section estimation program and recording medium recording the program, harmonic structure section estimation threshold determination method and apparatus, harmonic structure section estimation threshold determination program and program Recording media
WO2004111996A1 (en) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. Acoustic interval detection method and device
JP2005227544A (en) * 2004-02-13 2005-08-25 Matsushita Electric Ind Co Ltd Voice signal recording method and voice signal recording device
WO2006132159A1 (en) * 2005-06-09 2006-12-14 A.G.I. Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
JP2007156361A (en) * 2005-12-08 2007-06-21 Toshiba Tec Corp Voice processing apparatus and computer program for voice processing
JP4735398B2 (en) * 2006-04-28 2011-07-27 日本ビクター株式会社 Acoustic signal analysis apparatus, acoustic signal analysis method, and acoustic signal analysis program
JP2008079047A (en) * 2006-09-21 2008-04-03 Sony Corp Data reproducing device, data reproduction method and data reproduction program
JP4885812B2 (en) * 2007-09-12 2012-02-29 シャープ株式会社 Music detector
JP5577787B2 (en) * 2009-05-14 2014-08-27 ヤマハ株式会社 Signal processing device
JP2010002937A (en) * 2009-10-07 2010-01-07 Casio Comput Co Ltd Speech analysis and synthesis device, speed analyzer, speech synthesizer, and program

Also Published As

Publication number Publication date
JP2011145326A (en) 2011-07-28

Similar Documents

Publication Publication Date Title
US7974838B1 (en) System and method for pitch adjusting vocals
JP5149968B2 (en) Apparatus and method for generating a multi-channel signal including speech signal processing
RU2666316C2 (en) Device and method of improving audio, system of sound improvement
US20130216053A1 (en) Apparatus and method for modifying an audio signal using envelope shaping
JP6019969B2 (en) Sound processor
JP5577787B2 (en) Signal processing device
US9661436B2 (en) Audio signal playback device, method, and recording medium
WO2023221559A1 (en) Karaoke audio processing method and apparatus, and computer-readable storage medium
KR20120095971A (en) Method for dubbing microphone signals of a sound recording having a plurality of microphones
US8219390B1 (en) Pitch-based frequency domain voice removal
KR100813272B1 (en) Apparatus and method for reinforcing bass using stereo speakers
US10587983B1 (en) Methods and systems for adjusting clarity of digitized audio signals
JP5696828B2 (en) Signal processing device
JP7256164B2 (en) Audio processing device and audio processing method
JP5035386B2 (en) Measuring method, measuring device, program
Haeussler et al. Crispness, speech intelligibility, and coloration of reverberant recordings played back in another reverberant room (Room-In-Room)
CN113348508B (en) Electronic device, method and computer program
AU2023234658A1 (en) Apparatus and method for an automated control of a reverberation level using a perceptional model
JP4392040B2 (en) Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium
WO2017135350A1 (en) Recording medium, acoustic processing device, and acoustic processing method
Osses Vecchi et al. Predicting the perceived reverberation in different room acoustic environments using a binaural auditory model
Nishihara et al. Loudness perception of low tones undergoing partial masking by higher tones in orchestral music in concert halls
Lee et al. ACCOUNTING FOR LISTENING LEVEL IN THE PREDICTION OF REVERBERANCE USING EARLY DECAY TIME.
JP2012027101A (en) Sound playback apparatus, sound playback method, program, and recording medium
WO2024146888A1 (en) Audio reproduction system and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150127

R151 Written notification of patent or utility model registration

Ref document number: 5696828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees