JP6090371B2 - Audio signal identification device and program - Google Patents
Audio signal identification device and program Download PDFInfo
- Publication number
- JP6090371B2 JP6090371B2 JP2015121745A JP2015121745A JP6090371B2 JP 6090371 B2 JP6090371 B2 JP 6090371B2 JP 2015121745 A JP2015121745 A JP 2015121745A JP 2015121745 A JP2015121745 A JP 2015121745A JP 6090371 B2 JP6090371 B2 JP 6090371B2
- Authority
- JP
- Japan
- Prior art keywords
- block
- section
- consonant
- audio signal
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 title claims description 41
- 238000000034 method Methods 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 23
- 230000000630 rising effect Effects 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、オーディオ信号を解析して子音を識別する技術に関し、特に、地上デジタル放送などの放送コンテンツの音声における子音を識別する技術に関する。 The present invention relates to a technology for identifying a consonant by analyzing an audio signal, and more particularly to a technology for identifying a consonant in the sound of broadcast content such as terrestrial digital broadcasting.
近年では、地上デジタル放送や衛星デジタル放送などによって映画やドラマ、スポーツ中継などの様々な放送コンテンツが提供されており、例えばホームシアターなど、これら放送コンテンツを高い臨場感で再生するオーディオ機器も種々提案されている。この種のオーディオ機器のなかには、放送コンテンツにおける音の広がり感を演出するために、当該放送コンテンツのオーディオ信号に残響の付与やイコライジングなどの音声処理を施して再生するものがある。しかしながら、音声処理の対象となるオーディオ信号が映画の台詞などの音声を表すものである場合には、残響の付与を行うと明瞭さや自然さが損なわれ、台詞が聴き取り難くなる場合があり、このような事象は、子音(特に「S」や「Sh」などの摩擦音)において顕著である。そこで、オーディオ信号に残響付与やイコライジングなどの音声処理を施す際には、そのオーディオ信号における子音の音波形に相当する区間(以下、子音区間)を識別し、当該子音区間には音声処理を施さないようにする技術が種々提案されている(特許文献1〜3参照)。 In recent years, various broadcast contents such as movies, dramas, and sports broadcasts have been provided by terrestrial digital broadcasts and satellite digital broadcasts, and various audio devices that reproduce such broadcast contents with a high sense of presence, such as home theaters, have been proposed. ing. Among these types of audio equipment, in order to produce a sense of sound spread in the broadcast content, there is a device that reproduces the audio signal of the broadcast content by applying sound processing such as reverberation or equalizing. However, if the audio signal that is the target of audio processing represents a speech such as a movie dialogue, adding reverberation may impair clarity and nature, making it difficult to hear the dialogue. Such an event is conspicuous in consonants (particularly friction sounds such as “S” and “Sh”). Therefore, when performing audio processing such as adding reverberation or equalizing to an audio signal, the section corresponding to the sound waveform of the consonant in the audio signal (hereinafter referred to as consonant section) is identified, and audio processing is performed on the consonant section. Various techniques for avoiding this have been proposed (see Patent Documents 1 to 3).
例えば、特許文献1には、帯域エネルギーから子音区間を識別する技術が開示されている。特許文献2には、オーディオ信号における単位時間当たりのゼロクロス数から子音(摩擦音)を識別する技術が開示されている。そして、特許文献3には、複数の音響パラメータ(例えば、自己相関係数やLPCケプストラム係数、LPCメルケプストラム係数など)を重み付け加算して得られる判別係数を用いて音声区間の候補を絞り込み、さらに候補区間の時間長に基づいて音声区間、定常的な雑音に対応する定常雑音区間、突発的な雑音に対応する非定常雑音区間を識別する技術が開示されている。 For example, Patent Document 1 discloses a technique for identifying a consonant section from band energy. Patent Document 2 discloses a technique for identifying consonants (friction sounds) from the number of zero crosses per unit time in an audio signal. Patent Document 3 narrows down speech section candidates using a discrimination coefficient obtained by weighted addition of a plurality of acoustic parameters (for example, autocorrelation coefficient, LPC cepstrum coefficient, LPC mel cepstrum coefficient, etc.) A technique for identifying a speech section, a stationary noise section corresponding to stationary noise, and a non-stationary noise section corresponding to sudden noise based on the time length of the candidate section is disclosed.
しかしながら、特許文献1〜3に開示された技術は、放送コンテンツにおける子音区間の識別に適用し難いといった問題がある。例えば、映画等においては、演出のために各種効果音が用いられるが、これら効果音のなかには子音区間と同等のエネルギー比を有するものや、子音区間と同等のゼロクロス数を有するものがあり、特許文献1や特許文献2に開示された技術では、これら効果音が子音であると誤認識される場合がある。特許文献3に開示された技術では定常雑音や非定常雑音などの多様な背景雑音に対する耐性を高めるために複雑で処理負荷の高い信号処理(例えば、LPCケプストラム係数を算出可能とするためのフーリエ変換など)を行っている。放送コンテンツは一般にS/N比が高いため、特許文献3に開示された技術による子音区間の識別では不必要に処理負荷の高い処理を行うことになり、家庭用のオーディオ機器に適用したのでは無駄が多いといった問題がある。 However, the techniques disclosed in Patent Documents 1 to 3 have a problem that it is difficult to apply to identification of consonant sections in broadcast content. For example, in a movie or the like, various sound effects are used for production, but some of these sound effects have an energy ratio equivalent to that of a consonant interval, and those having a zero cross number equivalent to that of a consonant interval. In the techniques disclosed in Document 1 and Patent Document 2, these sound effects may be mistakenly recognized as consonants. In the technique disclosed in Patent Document 3, complicated and high processing load signal processing (for example, Fourier transform to enable calculation of LPC cepstrum coefficients) is performed in order to increase resistance to various background noises such as stationary noise and non-stationary noise. Etc.). Since broadcast contents generally have a high S / N ratio, identification of consonant sections by the technique disclosed in Patent Document 3 will unnecessarily increase the processing load, and it has not been applied to home audio equipment. There is a problem that there is a lot of waste.
本発明は上記課題に鑑みて為されたものであり、オーディオ信号における子音区間を簡単で処理負荷の軽い信号処理で確実に識別することを可能にする技術を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a technique that can reliably identify a consonant section in an audio signal by signal processing with a simple and light processing load.
上記課題を解決するために本発明は、オーディオ信号の波形を表すサンプル列を蓄積するバッファと、前記バッファに蓄積されたサンプル列を所定サンプル数のブロックに区切って読み出す読出制御部と、前記読出制御部により読み出されたブロック毎に当該ブロックにおける前記オーディオ信号の全周波数成分のエネルギーと当該ブロックにおける前記オーディオ信号の所定の周波数帯域に属する周波数成分のエネルギーとを各々算出し、両者の比を算出するエネルギー比算出手段と、前記読出制御部により読み出されたブロック毎に単位時間当たりのゼロクロス数をカウントするゼロクロス数カウント手段と、前記読出制御部により順次読み出されるブロックのうち、前記ゼロクロス数の増減態様から効果音と判定されるものを子音であるか否かの判定対象から除外し、判定対象ブロックについての前記エネルギー比、および当該判定対象ブロックと当該判定対象ブロックの前または後ろに連なる所定数のブロックにおける前記ゼロクロス数の変化態様に基づいて当該判定対象ブロックが子音区間に含まれるものであるか否かを判定する判定手段と、を有することを特徴とするオーディオ信号識別装置を提供する。 In order to solve the above problems, the present invention provides a buffer for accumulating a sample string representing a waveform of an audio signal, a read control unit for reading the sample string accumulated in the buffer into blocks of a predetermined number of samples, and the reading For each block read by the control unit, the energy of all frequency components of the audio signal in the block and the energy of frequency components belonging to a predetermined frequency band of the audio signal in the block are respectively calculated, and the ratio between the two is calculated. An energy ratio calculating means for calculating, a zero cross number counting means for counting the number of zero crosses per unit time for each block read by the read control unit, and the number of zero crosses among blocks sequentially read by the read control unit What is determined to be a sound effect from the increase / decrease mode of Whether or not based on the energy ratio of the determination target block, and the change state of the number of zero crosses in a predetermined number of blocks connected before or after the determination target block and the determination target block. There is provided an audio signal identification device comprising: determination means for determining whether a determination target block is included in a consonant section.
詳細については後述するが、音声以外の効果音の場合、単位時間当たりのゼロクロス数は、図3(b)に示すように頻繁に増減を繰り返す。このため、ゼロクロス数の増減態様から効果音であるか否かを判定することができ、効果音と判定されるブロックを子音であるか否かの判定対象から除外することができる。また、各ブロックにおけるエネルギー比の算出や単位時間当たりのゼロクロス数のカウントはフーリエ変換に比較して簡単な処理である。したがって、上記オーディオ信号識別装置によれば、残響付与やイコライジングなどの音声信号処理の処理対象となるオーディオ信号における子音区間を簡単な処理で識別することが可能になる。また、詳細については後述するが、本発明のオーディオ信号識別装置においては、エネルギー比と単位時間当たりのゼロクロス数の変化態様の両者を併用して子音区間に含まれるブロックであるか否かを判定するため、子音区間と同等のエネルギー比を有する効果音等が子音と誤認識されることが防止され、子音区間を確実に識別することが可能になる。つまり、上記オーディオ信号識別装置によれば、音声の他に効果音を含むオーディオ信号における子音区間を簡単で処理負荷の軽い信号処理で確実に識別することが可能になる。 Although details will be described later, in the case of a sound effect other than sound, the number of zero crosses per unit time is frequently increased and decreased as shown in FIG. For this reason, it can be determined whether it is a sound effect from the increase / decrease mode of the number of zero crosses, and the block determined to be a sound effect can be excluded from the determination target whether it is a consonant. Also, calculation of the energy ratio in each block and counting of the number of zero crosses per unit time are simple processes compared to Fourier transform. Therefore, according to the audio signal identification device, it is possible to identify a consonant section in an audio signal to be processed by audio signal processing such as reverberation or equalization by simple processing. Further, although details will be described later, in the audio signal identification device of the present invention, it is determined whether or not the block is included in the consonant section by using both the energy ratio and the variation of the number of zero crosses per unit time. Therefore, it is possible to prevent a sound effect having an energy ratio equivalent to that of the consonant section from being erroneously recognized as a consonant and to reliably identify the consonant section. That is, according to the audio signal identification device, it is possible to reliably identify a consonant section in an audio signal including a sound effect in addition to voice by simple and light signal processing.
より好ましい態様においては、子音区間に含まれると前記判定手段により判定されたブロックと当該ブロックの前または後ろに連なる所定数のブロックにおける単位時間当たりのゼロクロス数の変化態様から当該ブロックが子音区間の立上り区間に属するものか、同子音区間の定常区間に属するものか、同子音区間の立下り区間に属するものかを判定する詳細判定手段をさらに備えることを特徴とする。近年の研究では、子音区間のうち上記立上り区間と定常区間の両方(或いは一方)を引き伸ばすように話速変換を施すことで音声の聴き取り易さが向上するとの報告が為されている。したがって、上記の態様によれば、音声の聴き取り易さを向上させるための話速変換を施すべき区間を詳細に識別することが可能になる。 In a more preferable aspect, the block is determined to be a consonant section from a change aspect of the number of zero crosses per unit time in a block determined by the determination unit and included in a consonant section and a predetermined number of blocks connected before or after the block. It is further characterized by further comprising detailed determination means for determining whether it belongs to the rising section, belongs to the steady section of the consonant section, or belongs to the falling section of the consonant section. In recent studies, it has been reported that speech concealment is improved by performing speech speed conversion so as to extend both (or one) of the rising and stationary sections of the consonant sections. Therefore, according to the above aspect, it is possible to identify in detail a section in which speech speed conversion for improving the ease of listening to speech is to be performed.
以下、図面を参照し、この発明の実施形態について説明する。
(A:実施形態)
図1は、本発明のオーディオ信号識別装置の一実施形態の子音識別装置1の構成例を示す図である。
この子音識別装置1は、例えば家庭用ホームシアターなど放送コンテンツの再生を行うオーディオ機器に組み込まれるものであり、当該オーディオ機器により再生される放送コンテンツのオーディオ信号を解析し、子音に対応する子音区間を識別するためのものである。図1では詳細な図示を省略したが上記オーディオ機器は、音の広がり感を演出するための音声信号処理を施す音声信号処理部を有しており、この音声信号処理部は子音識別装置1により子音区間以外であると判定された区間にのみ当該音声信号処理を施す。これにより、台詞等の明瞭さを損なうことなく、音の広がり感を演出することが可能になる。
Embodiments of the present invention will be described below with reference to the drawings.
(A: Embodiment)
FIG. 1 is a diagram illustrating a configuration example of a consonant identification device 1 according to an embodiment of the audio signal identification device of the present invention.
The consonant identification device 1 is incorporated in an audio device that reproduces broadcast content, such as a home theater for home, for example, analyzes an audio signal of the broadcast content reproduced by the audio device, and determines a consonant section corresponding to the consonant. It is for identification. Although not shown in detail in FIG. 1, the audio device has an audio signal processing unit that performs audio signal processing for producing a sense of spread of sound. This audio signal processing unit is provided by a consonant identification device 1. The audio signal processing is performed only in the section determined to be other than the consonant section. As a result, it is possible to produce a sense of sound spread without impairing the clarity of the dialogue or the like.
図1に示すように、この子音識別装置1は、バッファ10、読出制御部20、および子音区間識別処理部30を含んでいる。バッファ10は、例えばRAM(Random Access Memory)などの揮発性メモリ内の記憶領域として確保されたリングバッファである。このバッファ10には、放送コンテンツのオーディオ信号のサンプル列が書きこまれる。なお、上記オーディオ信号がアナログ信号である場合にはA/D変換器によるA/D変換を施してサンプル列に変換した後にバッファ10に書き込むようにすれば良い。読出制御部20は、バッファ10に格納されているサンプル列を古いものから順に、例えば5msなどの所定時間に対応するサンプル数のブロックに区切って読出し、子音区間識別処理部30に与える。
As shown in FIG. 1, the consonant identification device 1 includes a
子音区間識別処理部30は、例えば、CPU(Central Processing Unit)と、RAMなどの揮発性メモリと、ROM(Read
Only Memory)などの不揮発性メモリとを含んでいる(何れも図示略)。この不揮発性メモリには、本実施形態の特徴を顕著に示す子音区間識別処理を上記CPUに実行させる子音区間識別処理プログラムが予め格納されている。子音区間識別処理部30の揮発性メモリは、当該子音区間識別処理プログラムを実行する際のワークエリアとして上記CPUによって利用される。この子音区間識別処理プログラムにしたがって作動する上記CPUは、エネルギー比算出処理310、ゼロクロス数カウント処理320、および判定処理330の3つの処理を実行する。つまり、本実施形態の子音区間識別処理は、エネルギー比算出処理310、ゼロクロス数カウント処理320、および判定処理330の3つの処理を含んでいる。
The consonant section
Non-volatile memory such as “Only Memory” (not shown). This non-volatile memory stores in advance a consonant segment identification processing program that causes the CPU to execute a consonant segment identification process that significantly shows the features of the present embodiment. The volatile memory of the consonant segment
エネルギー比算出処理310は、読出制御部20により読み出されるブロックの各々について、全周波数成分のエネルギーと所定の周波数帯域(本実施形態では、2kHz〜7kHzの周波数帯域)に属する周波数成分のエネルギーとを各々算出し、さらに、両者の比(後者を前者で除算して得られる値:以下、エネルギー比ER)を算出する処理である。図1に示すように、エネルギー比算出処理310は、エネルギー算出処理312aおよび312bと、バンドパスフィルタ処理314と、乗算処理316とを含んでいる。エネルギー算出処理312aは1つのブロックに含まれる各サンプルのサンプル値の2乗和を当該ブロックにおける全周波数成分のエネルギーとして算出する処理である。バンドパスフィルタ処理314は、上記ブロックを構成するサンプル列のうち、上記所定の周波数帯域に属する周波数成分のみを通過させる処理である。エネルギー算出処理312bは、バンドパスフィルタ処理314を経たサンプル列を構成する各サンプルのサンプル値の2乗和を当該周波数帯域に属する周波数成分のエネルギーとして算出する処理である。そして、乗算処理316は、エネルギー算出処理312bにより算出された値に、エネルギー算出処理312aにより算出された値の逆数を乗算してエネルギー比ERを算出する処理である。
The energy
ゼロクロス数カウント処理320は、読出制御部20により読み出されたブロック毎に単位時間当たりのゼロクロス数NUMをカウントする処理である。なお、ゼロクロス数をカウントするための具体的なアルゴリズムについては周知のものを適宜利用するようにすれば良い。そして、判定処理330は、読出制御部20により順次読み出されるブロックの各々を判定対象とし、当該判定対象ブロックについてエネルギー比算出処理310により算出されたエネルギー比ER、および当該判定対象ブロックとその前または後ろに連なる所定数のブロックの各々についてゼロクロス数カウント処理320によりカウントされた単位時間当たりのゼロクロス数のそれらブロック間での時間変化の態様(以下、変化態様)とに基づいて、子音区間に属するブロックであるか否かを判定し、その判定結果を示す判定結果信号SSを後段の音声信号処理部に出力する処理である。各ブロックにおけるエネルギー比ERと単位時間当たりのゼロクロス数の変化態様とに基づいて子音区間であるか否かを判定することができる理由は以下の通りである。
The zero-cross
図2は、母音の振幅スペクトルと子音の振幅スペクトルの一例を示す図である。図2では、母音の振幅スペクトルは実線のグラフで、子音の振幅スペクトルは一点鎖線のグラフで各々描画されている。図2に示すように子音の振幅スペクトルは上記所定の周波数帯域に局在している。このため、子音区間に属するブロックの場合、エネルギー算出処理312aおよび312bの各々にて算出されるエネルギーの値は略同じ値となり、乗算処理316において算出されるエネルギー比ERは1(或いは1に近い値)となる。これに対して、母音区間の振幅スペクトルは、図2に示すように、上記所定の周波数帯域の下限よりも低い周波数帯域に分布している。このため、母音区間に属するブロックの場合、エネルギー算出処理312bにおいて算出されるエネルギーの値はゼロまたはゼロに近い値となり、乗算処理316において算出されるエネルギー比ERは1を大きく下回る値となる。したがって、ブロック毎にエネルギー比算出処理310にて算出されるエネルギー比ERを参照することによって各ブロックが子音区間に属するのか否かを判定することができる。
FIG. 2 is a diagram illustrating an example of an amplitude spectrum of a vowel and an amplitude spectrum of a consonant. In FIG. 2, the vowel amplitude spectrum is drawn as a solid line graph, and the consonant amplitude spectrum is drawn as a one-dot chain line graph. As shown in FIG. 2, the amplitude spectrum of the consonant is localized in the predetermined frequency band. For this reason, in the case of a block belonging to a consonant section, the energy values calculated in each of the energy calculation processes 312a and 312b are substantially the same value, and the energy ratio ER calculated in the
図3は、音声の単位時間当たりのゼロクロス数の時間変化と効果音など音声以外の音の単位時間当たりのゼロクロス数の時間変化の一例を示す図である。より詳細に説明すると、図3(a)は、子音と当該子音に後続する母音とからなる音声の単位時間当たりのゼロクロス数の時間変化の一例を示す図であり、図3(b)は、効果音など音声以外の音の単位時間当たりのゼロクロス数の時間変化の一例を示す図である。音声の場合、母音区間においては周期的にゼロクロスが発生し、子音区間においては非周期的にゼロクロスが発生することが一般に知られている。母音区間においては周期的にゼロクロスが発生するため、単位時間当たりのゼロクロス数は図3(a)に示すように略一定となる。一方、子音区間をさらに詳細に分析すると、単位時間のゼロクロス数が単調に増加する区間(図3(a)の区間A)、略一定値を維持する区間(同図3(a)の区間B)、および当該一定値から単調に減少する区間(同図3(a)の区間C)の3つの区間に分類できることが知られている。そして、図3の区間Aは子音の立上り区間(例えば、無音状態からの立上り区間)に対応し、同図3(a)の区間Bは子音の定常区間に対応し、同図3(a)の区間Cは子音の立下り区間(子音から後続する母音への遷移区間)に対応することが知られている。つまり、単位時間当たりのゼロクロス数は、母音区間であればその母音区間全体に亘って略一定値を維持し、子音区間であれば、0から所定の値まで単調に増加した後に略一定値(母音区間におけるものよりも高い値)となり、その後単調に減少するといった具合に時間変化する。 FIG. 3 is a diagram illustrating an example of a time change of the number of zero crosses per unit time of sound and a time change of the number of zero crosses per unit time of sounds other than sound such as sound effects. More specifically, FIG. 3 (a) is a diagram showing an example of a time change of the number of zero crosses per unit time of a voice composed of a consonant and a vowel following the consonant, and FIG. It is a figure which shows an example of the time change of the number of zero crosses per unit time of sounds other than a sound, such as a sound effect. In the case of speech, it is generally known that zero crosses occur periodically in the vowel section and zero crosses occur non-periodically in the consonant section. Since zero crosses occur periodically in the vowel section, the number of zero crosses per unit time is substantially constant as shown in FIG. On the other hand, when the consonant section is analyzed in more detail, a section in which the number of zero crosses per unit time monotonously increases (section A in FIG. 3A) and a section in which a substantially constant value is maintained (section B in FIG. 3A). ) And a section monotonously decreasing from the constant value (section C in FIG. 3A) is known to be classified into three sections. 3 corresponds to a consonant rising section (for example, a rising section from a silent state), and section B in FIG. 3A corresponds to a consonant steady section, and FIG. It is known that section C corresponds to a falling section of a consonant (a transition section from a consonant to a subsequent vowel). That is, the number of zero crosses per unit time is maintained at a substantially constant value over the entire vowel section in the case of a vowel section, and is substantially constant after monotonically increasing from 0 to a predetermined value in the case of a consonant section ( It becomes a higher value than that in the vowel interval), and then changes with time, such as decreasing monotonously.
これに対して、音声以外の効果音の場合、単位時間当たりのゼロクロス数は、図3(b)に示すように頻繁に増減を繰り返す。したがって、判定対象ブロックとその前または後ろに連なる所定数のブロックにおける単位時間当たりのゼロクロス数NUMが増減を繰り返しているのか否かによって、当該判定対象ブロックが音声に対応するブロックであるのか、それとも音声以外の効果音に対応するブロックであるのかを判定することができ、音声に対応すると判定された場合には、さらに、単位時間当たりのゼロクロス数NUMが略一定でかつ所定の閾値(母音区間における値よりは大きく、かつ子音の定常区間における値よりは小さい値:例えば、図3(a)のth)未満の値を維持しているのか否かによって当該ブロックが母音区間に属するものであるのか、それとも子音区間に属するものであるのかを判定することができる。 On the other hand, in the case of sound effects other than voice, the number of zero crosses per unit time is frequently increased and decreased as shown in FIG. Therefore, depending on whether or not the number of zero crosses NUM per unit time in the determination target block and a predetermined number of blocks connected before or after it repeats increasing or decreasing, whether the determination target block is a block corresponding to sound, or It is possible to determine whether the block corresponds to a sound effect other than voice, and if it is determined to correspond to voice, the number of zero crosses NUM per unit time is substantially constant and a predetermined threshold (vowel interval) The block belongs to a vowel section depending on whether or not a value smaller than the value in the steady section of the consonant and a value less than, for example, th) in FIG. 3A is maintained. Or whether it belongs to a consonant section.
本実施形態の判定処理330では、(1)判定対象ブロックとその前または後ろに隣接するブロックにおいて単位時間当たりのゼロクロス数NUMが単調に増加または減少していること、或いは、所定の閾値を超える一定値を維持していること、(2)エネルギー比ERが1または1に近い値であること、の2つの条件を満たす場合に、当該判定対象ブロックを子音区間に属するブロックである判定する。このように、判定対象ブロックのエネルギー比ERと、判定対象ブロックおよびその前または後に隣接するブロックにおける単位時間当たりのゼロクロス数NUMの変化態様とに基づいて子音区間に属するものであるか否かの判定を行う場合には、エネルギー比算出処理ERにより算出されるエネルギー比ERとゼロクロス数カウント処理320によりカウントされたゼロクロス数NUMとをブロック毎に3ブロック分蓄積するリングバッファを上記RAM内に確保し、当該リングバッファの格納内容に基づいて上記条件(1)および(2)を満たすか否かの判定を行うようにすれば良い。
In the
ここで注目すべき点は、エネルギー比ERまたは単位時間当たりのゼロクロス数NUMの変化態様の何れか一方のみによっても判定対象ブロックが子音区間に属するか否かの判定を行えるかに見えるにも拘らず、本実施形態の判定処理330では、エネルギー比ERによる判定と単位時間当たりのゼロクロス数NUMの変化態様による判定とを併用している点である。両者を併用した理由は以下の通りである。
The point to be noted here is that it seems that it can be determined whether or not the block to be determined belongs to the consonant section only by either the energy ratio ER or the change mode of the number of zero crosses NUM per unit time. In the
例えば映画などにおいて台詞とともに再生される各種効果音のなかには、各ブロックにおけるエネルギー比が1に近いものや、上記所定の周波数帯域とは異なる周波数帯域に大半の周波数成分が属しているものの単位時間当たりのゼロクロス数が子音区間と同様に変化するものがある。エネルギー比ERのみによる判定では前者の効果音と子音とを識別することができず、単位時間当たりのゼロクロス数の時間変化のみによる判定では後者の効果音と子音とを識別することができない。しかし、両者を併用することによってこれら効果音と子音とを確実に識別することが可能になる。例えば、各ブロックにおけるエネルギー比が1に近い効果音であっても、単位時間当たりのゼロクロス数NUMが図3(b)に示すように変化しているものは上記条件(1)を満たさないため、本実施形態の判定処理330では、それらブロックは子音区間には属さないと判定される。同様に、判定対象ブロックとその前または後に連なるブロックにおける単位時間当たりのゼロクロス数NUMが図3(a)に示すように変化している効果音であっても、各ブロックにおけるエネルギー比ERが1を大きく下回るような効果音であれば、上記条件(2)を満たさないため、本実施形態の判定処理330では、それらブロックは子音区間には属さないと判定される。
For example, among various sound effects reproduced together with dialogue in movies, etc., the energy ratio in each block is close to 1, or the majority of frequency components belong to a frequency band different from the predetermined frequency band per unit time. The number of zero crosses varies in the same way as the consonant interval. The determination based on the energy ratio ER alone cannot identify the former sound effect and the consonant, and the determination based only on the time change of the number of zero crosses per unit time cannot identify the latter sound effect and the consonant. However, by using both in combination, these sound effects and consonants can be reliably identified. For example, even if the energy ratio in each block is a sound effect close to 1, if the number of zero crosses NUM per unit time changes as shown in FIG. 3B, the above condition (1) is not satisfied. In the
このように、本実施形態によれば、エネルギー比ERによる判定と単位時間当たりのゼロクロス数NUMの変化態様による判定の何れか一方のみでは子音であると誤認識される効果音と子音との識別を確実に行うことが可能になるのである。これが、エネルギー比ERによる判定と単位時間当たりのゼロクロス数NUMの変化態様による判定を併用した理由である。加えて、各ブロックについての上記エネルギー比ERの算出や単位時間当たりのゼロクロス数NUMの算出は、フーリエ変換に比較して処理負荷の軽い処理である。つまり、本実施形態の子音識別装置1によれば、残響の付与やイコライジングなどの音声信号処理の対象となるオーディオ信号における子音区間を簡単な信号処理で確実に識別することが可能になるのである。 As described above, according to the present embodiment, it is possible to distinguish between a sound effect and a consonant that are erroneously recognized as a consonant by only one of the determination by the energy ratio ER and the determination by the change mode of the number of zero crosses NUM per unit time. It is possible to reliably perform this. This is the reason why the determination by the energy ratio ER and the determination by the change mode of the number of zero crosses NUM per unit time are used together. In addition, the calculation of the energy ratio ER for each block and the calculation of the number of zero crosses NUM per unit time are processes with a lighter processing load than the Fourier transform. That is, according to the consonant identification device 1 of the present embodiment, it is possible to reliably identify a consonant section in an audio signal that is a target of audio signal processing such as reverberation or equalization by simple signal processing. .
(B:変形例)
以上本発明の実施形態について説明したが、この実施形態に以下に述べる変形を加えても勿論良い。
(1)上述した実施形態では、判定対象ブロックにおけるエネルギー比ERと、判定対象ブロックおよびその前または後ろに隣接するブロックにおける単位時間当たりのゼロクロス数の変化態様と、に基づいて子音区間であるか否かの判定を行った。しかし、単位時間当たりのゼロクロス数の変化態様に基づいて、判定対象ブロックが子音区間の立上り区間、定常区間および立下り区間の何れに属するのかを判定する詳細判定処理を実行させても良い。具体的には、単位時間当たりのゼロクロス数が1つ手前のブロック(すなわち、時間的に先行するブロック)に比較して所定の閾値以上増加しているブロックについては立上り区間に属すると判定し、1つ手前のブロックに対するゼロクロス数の増減幅が所定の閾値未満であるブロックについては定常区間に属すると判定し、1つ手前のブロックに対するゼロクロス数の減少幅が所定の閾値以上であるブロックについては立下り区間に属すると判定する詳細判定処理を子音区間識別処理部30にさらに実行させるのである。このような態様によれば、子音区間に属すると判定されたブロックについて立上り区間、定常区間および立下り区間の何れに属するのかを判定し、その判定結果を示す判定結果信号を後段の音声信号処理装置に与え、その判定結果に応じた音声信号処理を当該音声信号処理装置に実行させることが可能になる。
(B: Modification)
Although the embodiment of the present invention has been described above, it goes without saying that the following modifications may be added to this embodiment.
(1) In the embodiment described above, is it a consonant interval based on the energy ratio ER in the determination target block and the change mode of the number of zero crosses per unit time in the determination target block and the block adjacent to the front or back of the determination target block? A determination of whether or not was made. However, a detailed determination process for determining whether the determination target block belongs to a rising section, a stationary section, or a falling section of a consonant section may be executed based on a change mode of the number of zero crosses per unit time. Specifically, it is determined that a block in which the number of zero crosses per unit time has increased by a predetermined threshold or more compared to the block immediately before (that is, the preceding block in time) belongs to the rising section, A block in which the increase / decrease width of the number of zero crosses with respect to the previous block is less than a predetermined threshold value is determined to belong to the stationary section, and a block with a decrease width of the number of zero crosses with respect to the previous block is equal to or greater than a predetermined threshold value The detailed determination process for determining that it belongs to the falling section is further executed by the consonant section
例えば、上記音声信号処理装置が、話速変換により音声の聴き取り易さを向上させる装置である場合、近年の研究では子音の立上り区間または定常区間(或いはその両方)を伸張するように話速変換を施すことにより聴き取り易さが向上する旨の報告が為されている。したがって、本発明のオーディオ信号識別装置の後段の音声信号処理装置が話速変換により音声の聴き取り易さを向上させる装置である場合には、上記詳細判定処理を上記オーディオ信号識別装置に実行させることによって話速変換を施すべき区間を適切に判定し、その判定結果を当該音声信号処理装置に通知することが可能になる。 For example, when the speech signal processing device is a device that improves the ease of listening to speech through speech speed conversion, in recent research, the speech speed is extended so as to extend the rising interval or the steady interval (or both) of the consonant. Reports have been made that the conversion improves the ease of listening. Therefore, when the audio signal processing device in the subsequent stage of the audio signal identification device of the present invention is a device that improves the ease of listening to the voice by speech speed conversion, the audio signal identification device is caused to execute the detailed determination process. Accordingly, it is possible to appropriately determine a section where speech speed conversion is to be performed, and to notify the determination result to the audio signal processing device.
(2)上述した実施形態では、子音区間識別処理部30のCPUに当該実施形態の特徴を顕著に示す子音区間識別処理(すなわち、エネルギー比算出処理310、ゼロクロス数カウント処理320および判定処理330からなる処理)を実行させるための子音区間識別処理プログラムが同子音区間識別処理部30の不揮発性メモリに予め格納されていた。しかし、例えばCD−ROMなどのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布しても良く、また、インターネット経由のダウンロードにより当該プログラムを配布しても良い。
(2) In the above-described embodiment, the CPU of the consonant segment
また、上述した実施形態では、エネルギー比算出処理310、ゼロクロス数カウント処理320および判定処理330をソフトウェアによって実現したが、ハードウェアにより実現しても良い。具体的には、エネルギー比算出処理310を実行するエネルギー比算出手段、ゼロクロス数カウント処理320を実行するゼロクロス数カウント手段、判定処理330を実行する判定手段の各々を電子回路で構成し、これら各手段を組み合わせて子音区間識別処理部30を構成しても勿論良い。また、上記詳細判定処理をさらに実行させる態様にあっては、エネルギー比算出手段、ゼロクロス数カウント手段、判定手段、および詳細判定処理を実行する詳細判定手段の各手段を電子回路で構成し、これら各手段を組み合わせて子音区間識別処理部30を構成するようにすれば良い。
In the above-described embodiment, the energy
1…子音識別装置、10…バッファ、20…読出制御部、30…子音区間識別処理部、310…エネルギー比算出処理、312a、312b…エネルギー算出処理、314…バンドパスフィルタ処理、316…乗算処理、320…ゼロクロス数カウント処理、330…判定処理。
DESCRIPTION OF SYMBOLS 1 ... Consonant identification apparatus, 10 ... Buffer, 20 ... Reading control part, 30 ... Consonant area identification process part, 310 ... Energy ratio calculation process, 312a, 312b ... Energy calculation process, 314 ... Band pass filter process, 316 ...
Claims (2)
前記バッファに蓄積されたサンプル列を所定サンプル数のブロックに区切って読み出す読出制御部と、
前記読出制御部により読み出されたブロック毎に当該ブロックにおける前記オーディオ信号の全周波数成分のエネルギーと当該ブロックにおける前記オーディオ信号の所定の周波数帯域に属する周波数成分のエネルギーとを各々算出し、両者の比を算出するエネルギー比算出手段と、
前記読出制御部により読み出されたブロック毎に単位時間当たりのゼロクロス数をカウントするゼロクロス数カウント手段と、
前記読出制御部により順次読み出されるブロックのうち、前記ゼロクロス数の増減態様から効果音と判定されるものを子音であるか否かの判定対象から除外し、判定対象ブロックについての前記エネルギー比、および当該判定対象ブロックと当該判定対象ブロックの前または後ろに連なる所定数のブロックにおける前記ゼロクロス数の変化態様に基づいて当該判定対象ブロックが子音区間に含まれるものであるか否かを判定する判定手段と、
子音区間に含まれると前記判定手段により判定されたブロックと当該ブロックの前または後ろに連なる所定数のブロックにおける単位時間当たりのゼロクロス数の変化態様から当該ブロックが子音区間の立上り区間に属するものか、同子音区間の定常区間に属するものか、同子音区間の立下り区間に属するものかを判定する詳細判定手段と、
を有することを特徴とするオーディオ信号識別装置。 A buffer for storing a sample sequence representing the waveform of an audio signal;
A read control unit for reading the sample sequence accumulated in the buffer into blocks of a predetermined number of samples; and
For each block read by the read control unit, the energy of all the frequency components of the audio signal in the block and the energy of the frequency components belonging to a predetermined frequency band of the audio signal in the block are calculated respectively. Energy ratio calculating means for calculating the ratio;
A zero cross number counting means for counting the number of zero crosses per unit time for each block read by the read control unit;
Among the blocks sequentially read out by the read control unit, those determined as sound effects from the increase / decrease mode of the number of zero crosses are excluded from the determination target whether or not they are consonants, the energy ratio for the determination target block, and Determining means for determining whether or not the determination target block is included in a consonant section based on a change aspect of the number of zero crosses in the determination target block and a predetermined number of blocks connected before or after the determination target block and,
Whether the block belongs to the rising section of the consonant section from the aspect of change of the number of zero crosses per unit time in the block determined by the determining means and included in the consonant section and a predetermined number of blocks connected before or after the block Detailed determination means for determining whether it belongs to a stationary section of a consonant section or a falling section of a consonant section;
An audio signal identification device comprising:
当該コンピュータに入力されたオーディオ信号のサンプル列を所定サンプル数ずつ区切ってえられるブロックの各々について、全周波数成分のエネルギーと所定の周波数帯域に属する周波数成分のエネルギーとを各々算出し、両者の比を算出するエネルギー比算出処理と、 For each of the blocks obtained by dividing the sample sequence of the audio signal input to the computer by a predetermined number of samples, the energy of all frequency components and the energy of frequency components belonging to a predetermined frequency band are respectively calculated, and the ratio between the two is calculated. Energy ratio calculation processing for calculating
前記ブロックの各々について、単位時間当たりのゼロクロス数をカウントするゼロクロス数カウント処理と、 For each of the blocks, a zero cross number counting process for counting the number of zero crosses per unit time;
前記ブロックのうち、前記ゼロクロス数の増減態様から効果音と判定されるものを子音であるか否かの判定対象から除外し、判定対象ブロックについての前記エネルギー比、および当該判定対象ブロックと当該判定対象ブロックの前または後ろに連なる所定数のブロックにおける前記ゼロクロス数の変化態様に基づいて当該判定対象ブロックが子音区間に含まれるものであるか否かを判定する判定処理と、 Among the blocks, those determined as sound effects from the increase / decrease mode of the number of zero crosses are excluded from the determination target whether or not they are consonants, the energy ratio for the determination target block, and the determination target block and the determination A determination process for determining whether or not the determination target block is included in a consonant section based on a change aspect of the number of zero crosses in a predetermined number of blocks continuous before or after the target block;
子音区間に含まれると前記判定処理にて判定されたブロックと当該ブロックの前または後ろに連なる所定数のブロックにおける単位時間当たりのゼロクロス数の変化態様から当該ブロックが子音区間の立上り区間に属するものか、同子音区間の定常区間に属するものか、同子音区間の立下り区間に属するものかを判定する詳細判定処理と、 The block belongs to the rising section of the consonant section from the aspect of change in the number of zero crosses per unit time in the block determined in the determination process and the predetermined number of blocks connected before or after the block when included in the consonant section. A detailed determination process for determining whether it belongs to a stationary section of a consonant section or a falling section of a consonant section;
を実行させることを特徴とするプログラム。 A program characterized by having executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015121745A JP6090371B2 (en) | 2015-06-17 | 2015-06-17 | Audio signal identification device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015121745A JP6090371B2 (en) | 2015-06-17 | 2015-06-17 | Audio signal identification device and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011070477A Division JP2012203351A (en) | 2011-03-28 | 2011-03-28 | Consonant identification apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015180965A JP2015180965A (en) | 2015-10-15 |
JP6090371B2 true JP6090371B2 (en) | 2017-03-08 |
Family
ID=54329202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015121745A Expired - Fee Related JP6090371B2 (en) | 2015-06-17 | 2015-06-17 | Audio signal identification device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6090371B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106531153B (en) * | 2016-10-27 | 2019-11-05 | 天津大学 | The opera classification method extracted based on aria and the spoken parts of a Chinese opera |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60194500A (en) * | 1984-03-15 | 1985-10-02 | 工業技術院長 | Frictivity detector |
JP3094832B2 (en) * | 1995-03-24 | 2000-10-03 | 三菱電機株式会社 | Signal discriminator |
JP2007292940A (en) * | 2006-04-24 | 2007-11-08 | Toyota Motor Corp | Voice identification device and voice identification method |
-
2015
- 2015-06-17 JP JP2015121745A patent/JP6090371B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015180965A (en) | 2015-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6896135B2 (en) | Volume leveler controller and control method | |
JP6921907B2 (en) | Equipment and methods for audio classification and processing | |
JP6325640B2 (en) | Equalizer controller and control method | |
CN101149928B (en) | Sound signal processing method, sound signal processing device and computer program | |
US20140177853A1 (en) | Sound processing device, sound processing method, and program | |
JP5605574B2 (en) | Multi-channel acoustic signal processing method, system and program thereof | |
JP6539829B1 (en) | How to detect voice and non-voice level | |
JP6090371B2 (en) | Audio signal identification device and program | |
US8295499B2 (en) | Audio information processing and attack detection apparatus and method | |
JP2012203351A (en) | Consonant identification apparatus and program | |
CN112489692A (en) | Voice endpoint detection method and device | |
JP2011013383A (en) | Audio signal correction device and audio signal correction method | |
JP2008257048A (en) | Sound processing device and program | |
JP2003317368A (en) | Method for detecting and eliminating pulsed noise by digital signal processing | |
CN115862685B (en) | Real-time voice activity detection method and device and electronic equipment | |
JP7651474B2 (en) | Dialog Detector | |
von Zeddelmann | A feature-based approach to noise robust speech detection | |
Stokes et al. | Perceptual quality of audio separated using sigmoidal masks | |
CN116670755A (en) | Automatic detection and attenuation of speech-to-sound noise events | |
JP2009271556A (en) | Audio information classifying device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170123 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6090371 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |