JP2008102551A - Apparatus for processing voice signal and processing method thereof - Google Patents
Apparatus for processing voice signal and processing method thereof Download PDFInfo
- Publication number
- JP2008102551A JP2008102551A JP2007335479A JP2007335479A JP2008102551A JP 2008102551 A JP2008102551 A JP 2008102551A JP 2007335479 A JP2007335479 A JP 2007335479A JP 2007335479 A JP2007335479 A JP 2007335479A JP 2008102551 A JP2008102551 A JP 2008102551A
- Authority
- JP
- Japan
- Prior art keywords
- voiced sound
- signal
- start point
- level
- end point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 2
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000005236 sound signal Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 8
- 230000000630 rising effect Effects 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 abstract description 21
- 239000000284 extract Substances 0.000 abstract description 2
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Landscapes
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
Description
この発明は、音声信号の処理装置およびその処理方法に関する。 The present invention relates to an audio signal processing apparatus and a processing method therefor.
音声を伝送あるいは再生する場合、その伝送系あるいは再生系に残響やエコーが多いと、音声の明瞭度が低下してしまう。そこで、そのようなときには、発話速度を遅くする、連続して発声される語音を細かく分解し、時間をあけて再生するなどの処理が行なわれている。 When transmitting or reproducing sound, if there is a lot of reverberation or echo in the transmission system or reproduction system, the clarity of the sound will be reduced. Therefore, in such a case, processing such as slowing down the utterance speed, finely disassembling continuously uttered speech sounds, and reproducing them at intervals.
また、子音のような高域周波数が聞き取りにくいときには、周波数イコライザ処理により高域周波数の強調を行うこともある。さらに、いわゆる継時マスキング(エネルギーの大きい母音と子音とが続くとき、その母音により子音がマスクされる現象)を考慮した重み関数をかける処理も試みられている。 In addition, when high frequency such as consonant is difficult to hear, high frequency may be emphasized by frequency equalizer processing. Furthermore, a process of applying a weighting function in consideration of so-called successive masking (a phenomenon in which a consonant is masked by a vowel when a high energy vowel and a consonant continue) has been attempted.
さらに、以上の処理は難聴者や老人を対象に行われることもある。 Furthermore, the above processing may be performed for a hearing impaired person or an elderly person.
なお、先行技術文献として例えば以下のものがある。
ところが、上述したように、発話速度を遅くしたり、連続して発声される語音を分解したりすると、次のような問題点を生じてしまう。 However, as described above, if the utterance speed is slowed down or the speech that is continuously spoken is decomposed, the following problems occur.
1.原音声との間に時間のずれを生じ、即時性がなくなってしまう。したがって、会話などを行なうときには使えない。また、放送などを聞く楊合であっても、聞き終わるまでの時間が長くなってしまう。
2.語音の知覚判断には音声成分の変化速度も重要な手がかりになっているので、発話速度を遅くすると、この手がかりが変化して別な語音に知覚されてしまうことがある。
3.語音を分解してゆっくり再生すると、語音のまとまりとしての情報や過渡的な変化部分の情報が失われ、明瞭度の悪くなることがある。
4.周波数イコライザ処理により常に高域周波数を増幅した音声は、音色のバランスがくずれて不快であったり、聞き取りにくいことがある。
5.継時マスキングを考慮した重み関数をかける処理は、少なくとも重み関数の時間長の遅延が生じてしまい、即時性が失われてしまう。この結果、口の動きと処理音との間に時間ずれを生じて明瞭度に悪い影響を与えることがある。また、イヤホンからマイクロフォンへの音響的フィードバックがあるときには、その時間遅れによって残響音のような現象が引き起こされてしまう。
1. There will be a time lag between the original voice and the immediacy will be lost. Therefore, it cannot be used for conversations. Also, even when listening to broadcasts, it takes a long time to finish listening.
2. The rate of change of the speech component is also an important clue for the perception of speech, so if the utterance speed is slowed, this clue may change and be perceived by another speech.
3. If the speech is decomposed and reproduced slowly, information as a unit of speech and information on transitional changes may be lost, resulting in poor clarity.
4). A sound whose frequency band is always amplified by the frequency equalizer process may be uncomfortable or difficult to hear because the tone color balance is lost.
5. The process of applying the weighting function considering the continuous masking causes a delay of at least the time length of the weighting function and loses immediacy. As a result, a time lag may occur between the mouth movement and the processed sound, which may adversely affect the intelligibility. In addition, when there is acoustic feedback from the earphone to the microphone, a phenomenon such as reverberation is caused by the time delay.
この発明は、以上のような問題点を解決しようとするものである。 The present invention is intended to solve the above problems.
この発明においては、
入力音声信号の子音の帯域の振幅の変更を行なう振幅変更手段と、
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出手段と、
この抽出手段で抽出した信号から有声音のレベルを示す信号を算出するレベル算出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出手段と、
上記有声音開始点検出手段および上記有声音終了点検出手段により検出された上記有声音の開始点から終了判定点からの立下がりまでの区間のみ、上記振幅変更手段の利得を基準値に対し大きくし、上記有声音終了点検出手段により検出された上記有声音の終了点からの立下がり区間において上記振幅変更手段の利得を上記基準値まで下げるように上記振幅変更手段に対して制御を行なう制御手段と
を有する音声信号の処理装置
とするものである。
In this invention,
Amplitude changing means for changing the amplitude of the consonant band of the input voice signal;
Extraction means for extracting the pitch component and formant component of the input audio signal;
Level calculation means for calculating a signal indicating the level of voiced sound from the signal extracted by the extraction means;
Voiced sound start point detecting means for detecting the start point of the voiced sound in the input voice signal from the output of the level calculating means;
Voiced sound end point detecting means for detecting the end point of the voiced sound in the input voice signal from the output of the level calculating means;
The gain of the amplitude changing means is increased with respect to the reference value only in the section from the start point of the voiced sound detected by the voiced sound start point detecting means and the voiced sound end point detecting means to the fall from the end determination point. And control for controlling the amplitude changing means so as to lower the gain of the amplitude changing means to the reference value in the fall period from the end point of the voiced sound detected by the voiced sound end point detecting means. And an audio signal processing device having means.
この発明によれば、音声がはっきりし、明瞭度を改善できる。また、常に音声の高域を強調するときのような不快感がない。さらに、発声者の口の動きと処理音との間に時間差の生じることがない。 According to the present invention, the sound is clear and the intelligibility can be improved. Moreover, there is no discomfort as in the case where the high frequency range of the voice is always emphasized. Furthermore, there is no time difference between the movement of the speaker's mouth and the processed sound.
ところで、通常の会話の音声は、低い周波数の成分と高い周波数の成分との組み合わせで構成されている。また、一般の生活環境に存在する音も、低い周波数の成分と高い周波数の成分との組み合わせになっていることが多い。 By the way, the voice of normal conversation is composed of a combination of a low frequency component and a high frequency component. In addition, sound existing in a general living environment is often a combination of a low frequency component and a high frequency component.
そして、聴覚では、低域成分が高域成分をマスクすることが知られており、音声を知覚するときにも、このマスキングが働いている。健聴者では、このマスキングによる妨害は小さく、マスキングがあっても正しく音声を知覚できるが、難聴者では、マスキングによる妨害が大きく、時間的にも長く続くことがあり、言葉の聞き取りを悪くする原因の一つになっている。 In auditory sense, it is known that a low frequency component masks a high frequency component, and this masking works when perceiving speech. In normal hearing, this interference by masking is small, and even if there is masking, speech can be perceived correctly. It has become one of the.
また、健聴者でも低域成分の大きい雑音があると、言葉の聞き取りが低下することがある。さらに、いわゆる継時マスキングによっても、言葉の明瞭度が低下する。 In addition, even a normal hearing person may have difficulty in listening to words when there is a large amount of low-frequency noise. In addition, so-called successive masking also reduces word clarity.
そこで、この発明は、このようなマスキングあるいは継時マスキングに起因する明瞭度の低下を抑えようとするものである。 Therefore, the present invention is intended to suppress a reduction in clarity resulting from such masking or successive masking.
そして、このため、この発明の一形態においては、有声音の開始点から数ミリ秒〜十数ミリ秒の期間を立ち上がり期間とし、有声音の終了点から十数ミリ秒〜数十ミリ秒の期間を立ち下がり期間とするとき、これら立ち上がり期間および立ち下がり期間に、高域成分を増強するものである。 For this reason, in one embodiment of the present invention, a period of several milliseconds to tens of milliseconds from the start point of the voiced sound is set as a rising period, and a period of tens of milliseconds to several tens of milliseconds from the end point of the voiced sound. When the period is the falling period, the high frequency component is enhanced during the rising period and the falling period.
図1は、この発明の一形態を示すもので、処理前の音声信号S11が、入力端子11を通じて有声音の帯域を通過帯域とするフィルタ12に供給されてその有声音の信号成分S12が取り出され、この信号成分S12が加算回路13に供給される。また、端子11からの信号S11が、子音の帯域を通過帯域とするフィルタ14に供給されて子音の信号成分S14が取り出され、この信号成分S14が可変利得アンプ15を通じて加算回路13に供給される。
FIG. 1 shows an embodiment of the present invention. An unprocessed audio signal S11 is supplied to a
したがって、加算回路13においては、信号成分S12と信号成分S14とが加算されるので、可変利得アンプ15の利得G15が基準利得(例えば1倍)であるとすれば、加算回路13からは、音声信号S11に含まれる有声音の信号成分S12および子音の信号成分S14を、等しい割り合いで有する音声信号S13が得られることになる。そして、この信号S13が出力端子16に取り出される。
Therefore, since the signal component S12 and the signal component S14 are added in the
さらに、端子11の信号S11が、前処理のため、バンドパスフィルタ21およびレベル算出回路22に順に供給される。この場合、バンドパスフィルタ21は、有声音の開始点および終了点を検出しやすくし、かつ、雑音による影響が小さくなるように、信号S11からピッチ成分とフォルマント成分とを、信号S21として抽出するものである。したがって、バンドパスフィルタ21の通過帯域は、例えば150Hz〜1000Hzとされている。
Further, the signal S11 at the
また、レベル算出回路22は、例えば、信号S21を両波整流するとともに、その低域成分(例えば60Hz以下の成分)を取り出すことにより、信号S21のレベルを示す信号S22を形成するものである。
Further, the
そして、このレベル算出回路22の算出信号S22が検出回路23に供給されて有声音の開始点および終了点が検出され、その検出信号S23が制御回路24に供給されて制御信号S24が形成され、この信号S24が可変利得アンプ15に利得G15の制御信号として供給される。
Then, the calculation signal S22 of the
この場合、有声音の開始点および終了点の検出と、アンプ15の利得G15の大きさとは、例えば図2に示すような関係とされる。すなわち、算出信号S22の示す有声音のレベルが開始判定のしきい値より小さいときには、アンプ15の利得G15は基準値とされているが、有声音のレベルがその開始判定のしきい値よりも大きくなると、利得G15は、数ミリ秒から十数ミリ秒の立ち上がり期間をもって最大値まで次第に大きくされる。
In this case, the detection of the start point and the end point of the voiced sound and the magnitude of the gain G15 of the
また、算出信号S22の示す有声音のレベルが終了判定のしきい値よりも大きいときには、利得G15は大きいままとされるが、有声音のレベルがその終了判定のしきい値よりも小さくなると、利得G15は、数十ミリ秒から200ミリ秒程度の立ち下がり期間をもって基準値まで次第に小さくされる。 Further, when the level of the voiced sound indicated by the calculation signal S22 is larger than the threshold value for the end determination, the gain G15 is kept high, but when the level of the voiced sound is lower than the threshold value for the end determination, The gain G15 is gradually reduced to the reference value with a falling period of about several tens of milliseconds to 200 milliseconds.
このような構成によれば、処理前の音声信号S11に有声音の信号成分が含まれているとき、その開始点から終了点までの期間、信号S24によりアンプ15の利得G15が大きくなるので、その開始点から終了点までの期間、アンプ15を通じる子音の信号成分S14が大きくなる。
According to such a configuration, when the signal component of voiced sound is included in the audio signal S11 before processing, the gain G15 of the
したがって、有声音の開始点から終了点までの期間、端子16に出力される音声信号S13の子音の信号成分S14のレベルが大きくなるので、信号S13の再生音にマスキングを生じても、そのマスキングに見合う大きさだけ子音が大きくなり、したがって、言葉の聞き取りが改善される。 Accordingly, since the level of the consonant signal component S14 of the audio signal S13 output to the terminal 16 is increased during the period from the start point to the end point of the voiced sound, even if masking occurs in the reproduced sound of the signal S13, the masking is performed. The consonant will be louder than the size that fits, thus improving the listening of words.
また、有声音の終了点からの時間間隔が短い期間には、継時マスキングが大きいが、子音の信号成分S14は大きく増幅されるので、継時マスキングに対しても明瞭度を有効に高めることができる。さらに、次の子音の開始点までの時間間隔の長い期間には、継時マスキングが小さいが、この期間には、子音の信号成分S14はあまり増幅されないので、音色のバランスのくずれことがない。 Also, during the period when the time interval from the end point of the voiced sound is short, the successive masking is large, but since the signal component S14 of the consonant is greatly amplified, the clarity is effectively enhanced even for the successive masking. Can do. Further, although the successive masking is small in the period where the time interval to the start point of the next consonant is long, the signal component S14 of the consonant is not much amplified during this period, so that the tone color balance is not lost.
図3は、検出回路23および制御回路24が、検出信号S22から制御信号S24を形成する方法の一形態を示す。すなわち、この場合には、図1に示した回路の全部がデジタル化されるとともに、例えばDSPにより構成される。また、音声信号S11はもとの処理前のアナログ音声信号をA/D変換したデジタル音声信号とされる。
FIG. 3 shows one form of how the
そして、検出回路23および制御回路24においては、デジタル音声信号S11の1サンプルごとに、図3の処理ルーチン100が実行され、アンプ15の利得G15が例えば図2に示すように制御させる。なお、ルーチン100および以下の説明において、各変数の意味は以下のとおりである。
In the
e(i) :音声信号S11の第i番目のサンプルの示すレベル。
threshold1:有声音の終了判定のしきい値。信号S11がこの値よりも小さ
くなったとき、有声音が終了と判定する。
threshold2:有声音の開始判定のしきい値。信号S11がこの値よりも大き
くなったとき、有声音が開始と判定する。
threshold1≦threshold2に設定される。
w :利得G15を制御するための重み係数。0≦w≦1
w=0ときG15=基準利得、w=1のときG15=最大利得。
d1 :係数wを減少させるときのステップ幅。
d2 :係数wを増加させるときのステップ幅。
e (i): level indicated by the i-th sample of the audio signal S11.
threshold1: Threshold value for determining the end of voiced sound. Signal S11 is smaller than this value
When it becomes, the voiced sound is determined to be finished.
threshold2: Threshold for determining the start of voiced sound. Signal S11 is greater than this value
When it becomes, the voiced sound is determined to be started.
It is set to threshold1 ≦ threshold2.
w: Weighting factor for controlling the gain G15. 0 ≦ w ≦ 1
G15 = reference gain when w = 0, G15 = maximum gain when w = 1.
d1: Step width when the coefficient w is decreased.
d2: Step width when the coefficient w is increased.
すなわち、ルーチン100においては、まず、ステップ101において、第i番目のサンプルの信号レベルe(i)が開始判定のしきい値threshold2よりも小さいかどうかが判別され、小さいときには、処理はステップ101からステップ102に進む。
That is, in the routine 100, first, in
そして、このステップ102において、第i番目のサンプルの信号レベルe(i)が終了判定のしきい値threshold1よりも小さいかどうかが判別され、小さいときには、処理はステップ102からステップ103に進み、このステップ103において、係数wがステップ幅d1だけ小さくされ、ルーチン100を終了する。したがって、図2に示すように、有声音の終了点が検出されたときには、以後、利得G15は次第に小さくなっていく。
Then, in this
また、ステップ102において、第i番目のサンプルの信号レベルe(i)が終了判定のしきい値threshold1以上のときには、処理はステップ102からこのルーチン100を終了する。したがって、図2に示すように、有声音の終了が検出されるまでの期間(利得G15の大きい期間)は、その利得G15が保持される。
In
さらに、ステップ101において、第i番目のサンプルの信号レベルe(i)が開始判定のしきい値threshold2以上のときには、処理はステップ101からステップ104に進み、このステップ104において、係数wがステップ幅d2だけ大きくされ、ルーチン100を終了する。したがって、図2に示すように、有声音の開始点が検出されたときには、以後、利得G15は次第に大きくなっていく。
Further, in
こうして、ルーチン100によれば、有声音のレベルにしたがってアンプ15の利得G15を制御することにより、子音のレベルを補正しているので、マスキングや継時マスキングによる子音成分の聴感上の減衰を補うことができ、会話の子音部分など音声の明瞭度を向上させることができる。
In this way, according to the routine 100, the gain G15 of the
図4は、音声波形の観測結果を示すもので、図4Aはルーチン100による処理を行っていない音声信号S11の波形、図4Bはルーチン100による処理を行った音声信号S13の波形の観測例である。なお、このときの発声内容は、「1行目に書いてください」である。 FIG. 4 shows the observation result of the speech waveform. FIG. 4A shows an example of the waveform of the speech signal S11 not processed by the routine 100, and FIG. 4B shows an example of the waveform of the speech signal S13 processed by the routine 100. is there. The content of the utterance at this time is “Please write on the first line”.
そして、有声音の開始点から終了点までの区間Bは、子音の部分が大きく増幅され、有声音の終了点からの短い期間(矢印A、Fの部分)は、継時マスキングが大きいので、子音は大きく増幅され、次の子音の始まりまでの長い期間(矢印C、D、Eの部分)は、継時マスキングが小さいので、子音はあまり増幅されていない。 And, in the section B from the start point to the end point of the voiced sound, the consonant part is greatly amplified, and in the short period from the end point of the voiced sound (arrow A and F part), the successive masking is large. The consonant is greatly amplified, and during the long period until the start of the next consonant (arrows C, D, and E), since the successive masking is small, the consonant is not so amplified.
したがって、上述の処理回路によれば、音声を残響やエコーなどのある系で伝送あるいは再生するとき、あるいは難聴者や老人が音声を聞くとき、以下のような効果を得ることができる。
1.次に発声される音への継時マスキングだけが軽減されるように、子音が強調されるので、音声がはっきりし、明瞭度を改善できる。
2.マスキングが起きているときだけ子音が強調されるので、常に高域が強調されるときのように、音色のバランスが崩れたような不快感がない。
3.原理的に即時処理ができるので、発声者の口の動きと処理音との間に時間差の生じることがない。また、イヤホンからマイクロフォンへの音響的フィードバックがあっても、残響音のような音にはならないので、聞きやすい。
4.語音の知覚判断にとって重要な音声成分の変化速度や、語音のまとまりとしての情報および過渡的な変化部分の情報が失われない。
5.図4の処理ルーチン100によれば、その処理のステップ数が少ないので、処理が多少遅いDSPであっても、十分に対応することができる。
Therefore, according to the above-described processing circuit, the following effects can be obtained when sound is transmitted or reproduced in a system such as reverberation or echo, or when a hearing-impaired person or an elderly person listens to the sound.
1. Since the consonant is emphasized so that only the time masking to the next uttered sound is reduced, the voice is clear and the clarity can be improved.
2. Since the consonant is emphasized only when masking is occurring, there is no unpleasant feeling that the timbre is out of balance as in the case where the high range is always emphasized.
3. In principle, since immediate processing can be performed, there is no time difference between the movement of the speaker's mouth and the processed sound. Even if there is acoustic feedback from the earphone to the microphone, it does not sound like reverberation, so it is easy to hear.
4). The speed of change of speech components important for speech perception judgment, information as a unit of speech, and information of transitional changes are not lost.
5. According to the processing routine 100 of FIG. 4, since the number of steps of the processing is small, even a DSP that is somewhat slow in processing can sufficiently cope with it.
図5に示すルーチン200は、
threshold=threshold1=threshold2
とすることにより、ルーチン100を簡略化した場合である。すなわち、ルーチン200においては、
threshold :有声音の開始判定および終了判定のしきい値。信号S11がこ
の値よりも小さいと終了と判定し、この値よりも大きいと開
始と判定する。
とされ、他はルーチン100と同様とされる。
The routine 200 shown in FIG.
threshold = threshold1 = threshold2
Thus, the routine 100 is simplified. That is, in the routine 200,
threshold: Threshold value for voiced sound start / end judgment. Signal S11 is
If it is smaller than this value, it is determined that the process is finished.
It is determined that the beginning.
The others are the same as those in the routine 100.
そして、ステップ201において、第i番目のサンプルの信号レベルe(i)がしきい値thresholdと比較され、レベルe(i)がしきい値thresholdよりも小さければ、ステップ202において、係数wがステップ幅d1だけ小さくされ、そうでなければ、ステップ203において、係数wがステップ幅d2だけ大きくされる。
In
したがって、このルーチン200によれば、処理がさらに簡単であり、DSPの負担がより軽くなる。 Therefore, according to this routine 200, the processing is further simplified, and the burden on the DSP is further reduced.
12…有声音帯域フィルタ、13…加算回路、14…子音帯域フィルタ、15…可変利得アンプ、21…バンドパスフィルタ、22…レベル算出回路、23…検出回路、24…制御回路、100…処理ルーチン
DESCRIPTION OF
Claims (8)
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出手段と、
この抽出手段で抽出した信号から有声音のレベルを示す信号を算出するレベル算出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出手段と、
上記有声音開始点検出手段および上記有声音終了点検出手段により検出された上記有声音の開始点から終了判定点からの立下がりまでの区間のみ、上記振幅変更手段の利得を基準値に対し大きくし、上記有声音終了点検出手段により検出された上記有声音の終了点からの立下がり区間において上記振幅変更手段の利得を上記基準値まで下げるように上記振幅変更手段に対して制御を行なう制御手段と
を有する音声信号の処理装置。 Amplitude changing means for changing the amplitude of the consonant band of the input voice signal;
Extraction means for extracting the pitch component and formant component of the input audio signal;
Level calculation means for calculating a signal indicating the level of voiced sound from the signal extracted by the extraction means;
Voiced sound start point detecting means for detecting the start point of the voiced sound in the input voice signal from the output of the level calculating means;
Voiced sound end point detecting means for detecting the end point of the voiced sound in the input voice signal from the output of the level calculating means;
The gain of the amplitude changing means is increased with respect to the reference value only in the section from the start point of the voiced sound detected by the voiced sound start point detecting means and the voiced sound end point detecting means to the fall from the end determination point. And control for controlling the amplitude changing means so as to lower the gain of the amplitude changing means to the reference value in the fall period from the end point of the voiced sound detected by the voiced sound end point detecting means. An audio signal processing apparatus comprising: means.
上記有声音開始点検出手段は、上記有声音の信号レベルが所定のしきい値を越えたとき、これを検出して上記開始点の検出信号とする
ようにした音声信号の処理装置。 The audio signal processing device according to claim 1,
The voiced sound processing device, wherein the voiced sound start point detecting means detects the voiced sound signal level when the signal level of the voiced sound exceeds a predetermined threshold value and detects it as a detection signal of the start point.
上記有声音終了点検出手段は、上記有声音の信号レベルが所定のしきい値を下回ったとき、これを検出して上記終了点の検出信号とする
ようにした音声信号の処理装置。 The audio signal processing device according to claim 1,
The voiced sound end point detection means detects the end point detection signal when the signal level of the voiced sound falls below a predetermined threshold value.
上記振幅変更手段が可変利得アンプである
ようにした音声信号の処理装置。 The audio signal processing device according to claim 1,
An audio signal processing apparatus in which the amplitude changing means is a variable gain amplifier.
上記有声音の開始点から数ミリ秒〜十数ミリ秒の期間を立ち上がり期間とし、上記有声音の終了点から十数ミリ秒〜数十ミリ秒の期間を立ち下がり期間とするとき、上記立ち上がり期間および上記立ち下がり期間に、上記振幅変更手段の利得を変更する
ようにした音声信号の処理装置。 In the audio signal processing apparatus according to claim 1,
When the rising period is a period of several milliseconds to tens of milliseconds from the start point of the voiced sound, and the rising period is a period of tens of milliseconds to several tens of milliseconds from the end point of the voiced sound An audio signal processing apparatus configured to change the gain of the amplitude changing means during the period and the falling period.
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出手段と、
この抽出手段で抽出した信号から有声音のレベルを示す信号を算出するレベル算出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出手段と、
上記有声音開始点検出手段および上記有声音終了点検出手段により検出された上記有声音の開始点から終了判定点からの立下がりまでの区間のみ、上記振幅変更手段の利得を基準値に対し大きくし、上記有声音のレベルにしたがって上記振幅変更手段の利得を変更するように上記振幅変更手段に対して制御を行なう制御手段と
を有する音声信号の処理装置。 Amplitude changing means for changing the amplitude of the consonant band of the input voice signal;
Extraction means for extracting the pitch component and formant component of the input audio signal;
Level calculation means for calculating a signal indicating the level of voiced sound from the signal extracted by the extraction means;
Voiced sound start point detecting means for detecting the start point of the voiced sound in the input voice signal from the output of the level calculating means;
Voiced sound end point detecting means for detecting the end point of the voiced sound in the input voice signal from the output of the level calculating means;
The gain of the amplitude changing means is increased with respect to the reference value only in the section from the start point of the voiced sound detected by the voiced sound start point detecting means and the voiced sound end point detecting means to the fall from the end determination point. And a control means for controlling the amplitude changing means so as to change the gain of the amplitude changing means in accordance with the level of the voiced sound.
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出ステップと、
上記抽出ステップで抽出した信号から有声音のレベルを示す信号を算出するレベル算出ステップと、
このレベル算出ステップの出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出ステップと、
上記レベル算出ステップの出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出ステップと、
上記有声音開始点検出ステップおよび上記有声音終了点検出ステップの出力に基づいて上記振幅変更ステップの利得を制御する制御ステップと
を有し、
この制御ステップは、上記有声音開始点検出ステップが上記開始点を検出したとき、上記振幅変更ステップに対して上記利得を基準値よりも大きくするように制御信号を供給するとともに、
上記有声音終了点検出ステップが上記終了点を検出したとき、上記振幅変更ステップに対して上記利得を上記基準値に戻すように上記制御信号を供給する
ことを特徴とした音声信号の処理方法。 An amplitude changing step for changing the amplitude of the consonant band of the input audio signal;
An extraction step for extracting a pitch component and a formant component of the input audio signal;
A level calculation step for calculating a signal indicating the level of voiced sound from the signal extracted in the extraction step;
A voiced sound start point detecting step for detecting a start point of the voiced sound in the input voice signal from an output of the level calculating step;
A voiced sound end point detecting step of detecting an end point of the voiced sound in the input voice signal from the output of the level calculating step;
A control step for controlling the gain of the amplitude changing step based on outputs of the voiced sound start point detection step and the voiced sound end point detection step;
In this control step, when the voiced sound start point detection step detects the start point, the control step supplies a control signal so that the gain is larger than a reference value with respect to the amplitude change step.
When the voiced sound end point detecting step detects the end point, the control signal is supplied so as to return the gain to the reference value with respect to the amplitude changing step.
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出ステップと、
上記抽出ステップで抽出した信号からレベルを示す信号を算出するレベル算出ステップと、
このレベル算出ステップの出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出ステップと、
上記レベル算出ステップの出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出ステップと、
上記有声音開始点検出ステップおよび上記有声音終了点検出ステップの出力に基づいて上記振幅変更ステップの利得を制御する制御ステップと
を有し、
この制御ステップは、上記有声音開始点検出ステップが上記開始点を検出したとき、上記振幅変更ステップに対して上記利得を基準値よりも大きくするように制御信号を供給するとともに、
有声音のレベルにしたがって上記振幅変更ステップに対して上記利得を変更するように上記制御信号を供給する
ことを特徴とした音声信号の処理方法。 An amplitude changing step for changing the amplitude of the consonant band of the input audio signal;
An extraction step for extracting a pitch component and a formant component of the input audio signal;
A level calculation step for calculating a signal indicating a level from the signal extracted in the extraction step;
A voiced sound start point detecting step for detecting a start point of the voiced sound in the input voice signal from an output of the level calculating step;
A voiced sound end point detecting step of detecting an end point of the voiced sound in the input voice signal from the output of the level calculating step;
A control step for controlling the gain of the amplitude changing step based on outputs of the voiced sound start point detection step and the voiced sound end point detection step;
In this control step, when the voiced sound start point detection step detects the start point, the control step supplies a control signal so that the gain is larger than a reference value with respect to the amplitude change step.
A method for processing an audio signal, comprising: supplying the control signal so as to change the gain with respect to the amplitude changing step according to a level of voiced sound.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007335479A JP2008102551A (en) | 2007-12-27 | 2007-12-27 | Apparatus for processing voice signal and processing method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007335479A JP2008102551A (en) | 2007-12-27 | 2007-12-27 | Apparatus for processing voice signal and processing method thereof |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09914497A Division JP4079478B2 (en) | 1997-04-16 | 1997-04-16 | Audio signal processing circuit and processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008102551A true JP2008102551A (en) | 2008-05-01 |
Family
ID=39436861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007335479A Pending JP2008102551A (en) | 2007-12-27 | 2007-12-27 | Apparatus for processing voice signal and processing method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008102551A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012222933A (en) * | 2011-04-07 | 2012-11-12 | Mitsubishi Electric Corp | Interconnection power conditioner |
US8892434B2 (en) | 2011-12-27 | 2014-11-18 | Panasonic Corporation | Voice emphasis device |
JP2014219470A (en) * | 2013-05-02 | 2014-11-20 | ヤマハ株式会社 | Speech processing device and program |
WO2016203753A1 (en) * | 2015-06-16 | 2016-12-22 | 日本電気株式会社 | Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05199588A (en) * | 1992-01-21 | 1993-08-06 | Terumo Corp | Hearing aid |
JPH0736487A (en) * | 1993-07-21 | 1995-02-07 | Sony Corp | Speech signal processor |
JPH08179792A (en) * | 1994-12-22 | 1996-07-12 | Sony Corp | Speech processing device |
JPH0916193A (en) * | 1995-06-30 | 1997-01-17 | Hitachi Ltd | Speech speed converter |
-
2007
- 2007-12-27 JP JP2007335479A patent/JP2008102551A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05199588A (en) * | 1992-01-21 | 1993-08-06 | Terumo Corp | Hearing aid |
JPH0736487A (en) * | 1993-07-21 | 1995-02-07 | Sony Corp | Speech signal processor |
JPH08179792A (en) * | 1994-12-22 | 1996-07-12 | Sony Corp | Speech processing device |
JPH0916193A (en) * | 1995-06-30 | 1997-01-17 | Hitachi Ltd | Speech speed converter |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012222933A (en) * | 2011-04-07 | 2012-11-12 | Mitsubishi Electric Corp | Interconnection power conditioner |
US8892434B2 (en) | 2011-12-27 | 2014-11-18 | Panasonic Corporation | Voice emphasis device |
JP2014219470A (en) * | 2013-05-02 | 2014-11-20 | ヤマハ株式会社 | Speech processing device and program |
WO2016203753A1 (en) * | 2015-06-16 | 2016-12-22 | 日本電気株式会社 | Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8374877B2 (en) | Hearing aid and hearing-aid processing method | |
WO2010131470A1 (en) | Gain control apparatus and gain control method, and voice output apparatus | |
US8582792B2 (en) | Method and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
JP2002237785A (en) | Method for detecting sid frame by compensation of human audibility | |
US9119007B2 (en) | Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
JP4876245B2 (en) | Consonant processing device, voice information transmission device, and consonant processing method | |
CN102860047B (en) | The control method of hearing aids and hearing aids | |
JPH0968997A (en) | Method and device for processing voice | |
JP2008102551A (en) | Apparatus for processing voice signal and processing method thereof | |
JP3789503B2 (en) | Audio processing device | |
KR100956167B1 (en) | Channel Setting Method for Multichannel Digital Hearing Aids for Korean Frequency Characteristics and Multichannel Digital Hearing Aids | |
JP4079478B2 (en) | Audio signal processing circuit and processing method | |
KR100883896B1 (en) | Voice Clarity Improvement Device and Method | |
JP2002252894A (en) | Sound signal processor | |
JP3596580B2 (en) | Audio signal processing circuit | |
JP4774255B2 (en) | Audio signal processing method, apparatus and program | |
JP3219892B2 (en) | Real-time speech speed converter | |
JP3303446B2 (en) | Audio signal processing device | |
RU2589298C1 (en) | Method of increasing legible and informative audio signals in the noise situation | |
JP4005166B2 (en) | Audio signal processing circuit | |
JP2001249676A (en) | Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise | |
JP2005202335A (en) | Method, device, and program for speech processing | |
JP2006333396A (en) | Audio signal loudspeaker | |
JP2006324786A (en) | Acoustic signal processing apparatus and method | |
JP2011141540A (en) | Voice signal processing device, television receiver, voice signal processing method, program and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090825 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20091005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110317 |