[go: up one dir, main page]

JP2008102551A - Apparatus for processing voice signal and processing method thereof - Google Patents

Apparatus for processing voice signal and processing method thereof Download PDF

Info

Publication number
JP2008102551A
JP2008102551A JP2007335479A JP2007335479A JP2008102551A JP 2008102551 A JP2008102551 A JP 2008102551A JP 2007335479 A JP2007335479 A JP 2007335479A JP 2007335479 A JP2007335479 A JP 2007335479A JP 2008102551 A JP2008102551 A JP 2008102551A
Authority
JP
Japan
Prior art keywords
voiced sound
signal
start point
level
end point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007335479A
Other languages
Japanese (ja)
Inventor
Masami Miura
雅美 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007335479A priority Critical patent/JP2008102551A/en
Publication of JP2008102551A publication Critical patent/JP2008102551A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve aural comprehension of words to masking by a voiced sound or successive time masking. <P>SOLUTION: An apparatus for processing a speech signal is provided with an amplitude changing means 15 which performs a change of the amplitude of a bandwidth of a consonant of an input speech signal S17, and an extraction means 21 which extracts a pitch component and formant component of the signal S17. The apparatus is provided with a level calculation means 22 which calculates a signal to indicate the level of the voiced sound from the extraction output of the extraction means 21, and a voiced sound start point detection means 23 which detects the start point and end point of the voiced sound in the input speech signal S17 from the output of the level calculation means 22. The apparatus is provided with a control means 24 which performs control to the amplitude changing means 15 so as to increase the gain of the amplitude changing means 15 with respect to a reference value only in the section from the start point of the voiced sound detected by the detection means 23 down to the fall from the end determination point and to lower the gain of the amplitude changing means 15 down to the reference value in the fall section from the end point of the voiced sound detected by a voiced sound end point detection means 23. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

この発明は、音声信号の処理装置およびその処理方法に関する。   The present invention relates to an audio signal processing apparatus and a processing method therefor.

音声を伝送あるいは再生する場合、その伝送系あるいは再生系に残響やエコーが多いと、音声の明瞭度が低下してしまう。そこで、そのようなときには、発話速度を遅くする、連続して発声される語音を細かく分解し、時間をあけて再生するなどの処理が行なわれている。   When transmitting or reproducing sound, if there is a lot of reverberation or echo in the transmission system or reproduction system, the clarity of the sound will be reduced. Therefore, in such a case, processing such as slowing down the utterance speed, finely disassembling continuously uttered speech sounds, and reproducing them at intervals.

また、子音のような高域周波数が聞き取りにくいときには、周波数イコライザ処理により高域周波数の強調を行うこともある。さらに、いわゆる継時マスキング(エネルギーの大きい母音と子音とが続くとき、その母音により子音がマスクされる現象)を考慮した重み関数をかける処理も試みられている。   In addition, when high frequency such as consonant is difficult to hear, high frequency may be emphasized by frequency equalizer processing. Furthermore, a process of applying a weighting function in consideration of so-called successive masking (a phenomenon in which a consonant is masked by a vowel when a high energy vowel and a consonant continue) has been attempted.

さらに、以上の処理は難聴者や老人を対象に行われることもある。   Furthermore, the above processing may be performed for a hearing impaired person or an elderly person.

なお、先行技術文献として例えば以下のものがある。
特開平8−179792号公報 特開平9− 16193号公報
For example, there are the following prior art documents.
JP-A-8-179792 Japanese Patent Laid-Open No. 9-16193

ところが、上述したように、発話速度を遅くしたり、連続して発声される語音を分解したりすると、次のような問題点を生じてしまう。   However, as described above, if the utterance speed is slowed down or the speech that is continuously spoken is decomposed, the following problems occur.

1.原音声との間に時間のずれを生じ、即時性がなくなってしまう。したがって、会話などを行なうときには使えない。また、放送などを聞く楊合であっても、聞き終わるまでの時間が長くなってしまう。
2.語音の知覚判断には音声成分の変化速度も重要な手がかりになっているので、発話速度を遅くすると、この手がかりが変化して別な語音に知覚されてしまうことがある。
3.語音を分解してゆっくり再生すると、語音のまとまりとしての情報や過渡的な変化部分の情報が失われ、明瞭度の悪くなることがある。
4.周波数イコライザ処理により常に高域周波数を増幅した音声は、音色のバランスがくずれて不快であったり、聞き取りにくいことがある。
5.継時マスキングを考慮した重み関数をかける処理は、少なくとも重み関数の時間長の遅延が生じてしまい、即時性が失われてしまう。この結果、口の動きと処理音との間に時間ずれを生じて明瞭度に悪い影響を与えることがある。また、イヤホンからマイクロフォンへの音響的フィードバックがあるときには、その時間遅れによって残響音のような現象が引き起こされてしまう。
1. There will be a time lag between the original voice and the immediacy will be lost. Therefore, it cannot be used for conversations. Also, even when listening to broadcasts, it takes a long time to finish listening.
2. The rate of change of the speech component is also an important clue for the perception of speech, so if the utterance speed is slowed, this clue may change and be perceived by another speech.
3. If the speech is decomposed and reproduced slowly, information as a unit of speech and information on transitional changes may be lost, resulting in poor clarity.
4). A sound whose frequency band is always amplified by the frequency equalizer process may be uncomfortable or difficult to hear because the tone color balance is lost.
5. The process of applying the weighting function considering the continuous masking causes a delay of at least the time length of the weighting function and loses immediacy. As a result, a time lag may occur between the mouth movement and the processed sound, which may adversely affect the intelligibility. In addition, when there is acoustic feedback from the earphone to the microphone, a phenomenon such as reverberation is caused by the time delay.

この発明は、以上のような問題点を解決しようとするものである。   The present invention is intended to solve the above problems.

この発明においては、
入力音声信号の子音の帯域の振幅の変更を行なう振幅変更手段と、
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出手段と、
この抽出手段で抽出した信号から有声音のレベルを示す信号を算出するレベル算出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出手段と、
上記有声音開始点検出手段および上記有声音終了点検出手段により検出された上記有声音の開始点から終了判定点からの立下がりまでの区間のみ、上記振幅変更手段の利得を基準値に対し大きくし、上記有声音終了点検出手段により検出された上記有声音の終了点からの立下がり区間において上記振幅変更手段の利得を上記基準値まで下げるように上記振幅変更手段に対して制御を行なう制御手段と
を有する音声信号の処理装置
とするものである。
In this invention,
Amplitude changing means for changing the amplitude of the consonant band of the input voice signal;
Extraction means for extracting the pitch component and formant component of the input audio signal;
Level calculation means for calculating a signal indicating the level of voiced sound from the signal extracted by the extraction means;
Voiced sound start point detecting means for detecting the start point of the voiced sound in the input voice signal from the output of the level calculating means;
Voiced sound end point detecting means for detecting the end point of the voiced sound in the input voice signal from the output of the level calculating means;
The gain of the amplitude changing means is increased with respect to the reference value only in the section from the start point of the voiced sound detected by the voiced sound start point detecting means and the voiced sound end point detecting means to the fall from the end determination point. And control for controlling the amplitude changing means so as to lower the gain of the amplitude changing means to the reference value in the fall period from the end point of the voiced sound detected by the voiced sound end point detecting means. And an audio signal processing device having means.

この発明によれば、音声がはっきりし、明瞭度を改善できる。また、常に音声の高域を強調するときのような不快感がない。さらに、発声者の口の動きと処理音との間に時間差の生じることがない。   According to the present invention, the sound is clear and the intelligibility can be improved. Moreover, there is no discomfort as in the case where the high frequency range of the voice is always emphasized. Furthermore, there is no time difference between the movement of the speaker's mouth and the processed sound.

ところで、通常の会話の音声は、低い周波数の成分と高い周波数の成分との組み合わせで構成されている。また、一般の生活環境に存在する音も、低い周波数の成分と高い周波数の成分との組み合わせになっていることが多い。   By the way, the voice of normal conversation is composed of a combination of a low frequency component and a high frequency component. In addition, sound existing in a general living environment is often a combination of a low frequency component and a high frequency component.

そして、聴覚では、低域成分が高域成分をマスクすることが知られており、音声を知覚するときにも、このマスキングが働いている。健聴者では、このマスキングによる妨害は小さく、マスキングがあっても正しく音声を知覚できるが、難聴者では、マスキングによる妨害が大きく、時間的にも長く続くことがあり、言葉の聞き取りを悪くする原因の一つになっている。   In auditory sense, it is known that a low frequency component masks a high frequency component, and this masking works when perceiving speech. In normal hearing, this interference by masking is small, and even if there is masking, speech can be perceived correctly. It has become one of the.

また、健聴者でも低域成分の大きい雑音があると、言葉の聞き取りが低下することがある。さらに、いわゆる継時マスキングによっても、言葉の明瞭度が低下する。   In addition, even a normal hearing person may have difficulty in listening to words when there is a large amount of low-frequency noise. In addition, so-called successive masking also reduces word clarity.

そこで、この発明は、このようなマスキングあるいは継時マスキングに起因する明瞭度の低下を抑えようとするものである。   Therefore, the present invention is intended to suppress a reduction in clarity resulting from such masking or successive masking.

そして、このため、この発明の一形態においては、有声音の開始点から数ミリ秒〜十数ミリ秒の期間を立ち上がり期間とし、有声音の終了点から十数ミリ秒〜数十ミリ秒の期間を立ち下がり期間とするとき、これら立ち上がり期間および立ち下がり期間に、高域成分を増強するものである。   For this reason, in one embodiment of the present invention, a period of several milliseconds to tens of milliseconds from the start point of the voiced sound is set as a rising period, and a period of tens of milliseconds to several tens of milliseconds from the end point of the voiced sound. When the period is the falling period, the high frequency component is enhanced during the rising period and the falling period.

図1は、この発明の一形態を示すもので、処理前の音声信号S11が、入力端子11を通じて有声音の帯域を通過帯域とするフィルタ12に供給されてその有声音の信号成分S12が取り出され、この信号成分S12が加算回路13に供給される。また、端子11からの信号S11が、子音の帯域を通過帯域とするフィルタ14に供給されて子音の信号成分S14が取り出され、この信号成分S14が可変利得アンプ15を通じて加算回路13に供給される。   FIG. 1 shows an embodiment of the present invention. An unprocessed audio signal S11 is supplied to a filter 12 having a passband of a voiced sound band through an input terminal 11, and a signal component S12 of the voiced sound is extracted. This signal component S12 is supplied to the adder circuit 13. Further, the signal S11 from the terminal 11 is supplied to the filter 14 having the passband of the consonant band to extract the consonant signal component S14, and this signal component S14 is supplied to the adder circuit 13 through the variable gain amplifier 15. .

したがって、加算回路13においては、信号成分S12と信号成分S14とが加算されるので、可変利得アンプ15の利得G15が基準利得(例えば1倍)であるとすれば、加算回路13からは、音声信号S11に含まれる有声音の信号成分S12および子音の信号成分S14を、等しい割り合いで有する音声信号S13が得られることになる。そして、この信号S13が出力端子16に取り出される。   Therefore, since the signal component S12 and the signal component S14 are added in the adder circuit 13, if the gain G15 of the variable gain amplifier 15 is a reference gain (for example, 1 time), the adder circuit 13 The voice signal S13 having the voiced signal component S12 and the consonant signal component S14 included in the signal S11 in an equal proportion is obtained. Then, this signal S13 is taken out to the output terminal 16.

さらに、端子11の信号S11が、前処理のため、バンドパスフィルタ21およびレベル算出回路22に順に供給される。この場合、バンドパスフィルタ21は、有声音の開始点および終了点を検出しやすくし、かつ、雑音による影響が小さくなるように、信号S11からピッチ成分とフォルマント成分とを、信号S21として抽出するものである。したがって、バンドパスフィルタ21の通過帯域は、例えば150Hz〜1000Hzとされている。   Further, the signal S11 at the terminal 11 is sequentially supplied to the band pass filter 21 and the level calculation circuit 22 for preprocessing. In this case, the band pass filter 21 extracts the pitch component and the formant component as the signal S21 from the signal S11 so that the start point and the end point of the voiced sound can be easily detected and the influence of noise is reduced. Is. Therefore, the pass band of the band pass filter 21 is, for example, 150 Hz to 1000 Hz.

また、レベル算出回路22は、例えば、信号S21を両波整流するとともに、その低域成分(例えば60Hz以下の成分)を取り出すことにより、信号S21のレベルを示す信号S22を形成するものである。   Further, the level calculation circuit 22 forms a signal S22 indicating the level of the signal S21 by, for example, performing both-wave rectification on the signal S21 and extracting a low-frequency component (for example, a component of 60 Hz or less).

そして、このレベル算出回路22の算出信号S22が検出回路23に供給されて有声音の開始点および終了点が検出され、その検出信号S23が制御回路24に供給されて制御信号S24が形成され、この信号S24が可変利得アンプ15に利得G15の制御信号として供給される。   Then, the calculation signal S22 of the level calculation circuit 22 is supplied to the detection circuit 23 to detect the start point and the end point of the voiced sound, and the detection signal S23 is supplied to the control circuit 24 to form the control signal S24. This signal S24 is supplied to the variable gain amplifier 15 as a control signal with a gain G15.

この場合、有声音の開始点および終了点の検出と、アンプ15の利得G15の大きさとは、例えば図2に示すような関係とされる。すなわち、算出信号S22の示す有声音のレベルが開始判定のしきい値より小さいときには、アンプ15の利得G15は基準値とされているが、有声音のレベルがその開始判定のしきい値よりも大きくなると、利得G15は、数ミリ秒から十数ミリ秒の立ち上がり期間をもって最大値まで次第に大きくされる。   In this case, the detection of the start point and the end point of the voiced sound and the magnitude of the gain G15 of the amplifier 15 have a relationship as shown in FIG. That is, when the level of the voiced sound indicated by the calculated signal S22 is smaller than the threshold value for the start determination, the gain G15 of the amplifier 15 is set to the reference value, but the level of the voiced sound is higher than the threshold value for the start determination. When the gain is increased, the gain G15 is gradually increased to the maximum value with a rising period of several milliseconds to several tens of milliseconds.

また、算出信号S22の示す有声音のレベルが終了判定のしきい値よりも大きいときには、利得G15は大きいままとされるが、有声音のレベルがその終了判定のしきい値よりも小さくなると、利得G15は、数十ミリ秒から200ミリ秒程度の立ち下がり期間をもって基準値まで次第に小さくされる。   Further, when the level of the voiced sound indicated by the calculation signal S22 is larger than the threshold value for the end determination, the gain G15 is kept high, but when the level of the voiced sound is lower than the threshold value for the end determination, The gain G15 is gradually reduced to the reference value with a falling period of about several tens of milliseconds to 200 milliseconds.

このような構成によれば、処理前の音声信号S11に有声音の信号成分が含まれているとき、その開始点から終了点までの期間、信号S24によりアンプ15の利得G15が大きくなるので、その開始点から終了点までの期間、アンプ15を通じる子音の信号成分S14が大きくなる。   According to such a configuration, when the signal component of voiced sound is included in the audio signal S11 before processing, the gain G15 of the amplifier 15 is increased by the signal S24 during the period from the start point to the end point. During the period from the start point to the end point, the consonant signal component S14 passing through the amplifier 15 increases.

したがって、有声音の開始点から終了点までの期間、端子16に出力される音声信号S13の子音の信号成分S14のレベルが大きくなるので、信号S13の再生音にマスキングを生じても、そのマスキングに見合う大きさだけ子音が大きくなり、したがって、言葉の聞き取りが改善される。   Accordingly, since the level of the consonant signal component S14 of the audio signal S13 output to the terminal 16 is increased during the period from the start point to the end point of the voiced sound, even if masking occurs in the reproduced sound of the signal S13, the masking is performed. The consonant will be louder than the size that fits, thus improving the listening of words.

また、有声音の終了点からの時間間隔が短い期間には、継時マスキングが大きいが、子音の信号成分S14は大きく増幅されるので、継時マスキングに対しても明瞭度を有効に高めることができる。さらに、次の子音の開始点までの時間間隔の長い期間には、継時マスキングが小さいが、この期間には、子音の信号成分S14はあまり増幅されないので、音色のバランスのくずれことがない。   Also, during the period when the time interval from the end point of the voiced sound is short, the successive masking is large, but since the signal component S14 of the consonant is greatly amplified, the clarity is effectively enhanced even for the successive masking. Can do. Further, although the successive masking is small in the period where the time interval to the start point of the next consonant is long, the signal component S14 of the consonant is not much amplified during this period, so that the tone color balance is not lost.

図3は、検出回路23および制御回路24が、検出信号S22から制御信号S24を形成する方法の一形態を示す。すなわち、この場合には、図1に示した回路の全部がデジタル化されるとともに、例えばDSPにより構成される。また、音声信号S11はもとの処理前のアナログ音声信号をA/D変換したデジタル音声信号とされる。   FIG. 3 shows one form of how the detection circuit 23 and the control circuit 24 form the control signal S24 from the detection signal S22. In other words, in this case, the entire circuit shown in FIG. 1 is digitized and configured by a DSP, for example. The audio signal S11 is a digital audio signal obtained by A / D converting the original analog audio signal before processing.

そして、検出回路23および制御回路24においては、デジタル音声信号S11の1サンプルごとに、図3の処理ルーチン100が実行され、アンプ15の利得G15が例えば図2に示すように制御させる。なお、ルーチン100および以下の説明において、各変数の意味は以下のとおりである。   In the detection circuit 23 and the control circuit 24, the processing routine 100 of FIG. 3 is executed for each sample of the digital audio signal S11, and the gain G15 of the amplifier 15 is controlled as shown in FIG. In the routine 100 and the following description, the meaning of each variable is as follows.

e(i) :音声信号S11の第i番目のサンプルの示すレベル。
threshold1:有声音の終了判定のしきい値。信号S11がこの値よりも小さ
くなったとき、有声音が終了と判定する。
threshold2:有声音の開始判定のしきい値。信号S11がこの値よりも大き
くなったとき、有声音が開始と判定する。
threshold1≦threshold2に設定される。
w :利得G15を制御するための重み係数。0≦w≦1
w=0ときG15=基準利得、w=1のときG15=最大利得。
d1 :係数wを減少させるときのステップ幅。
d2 :係数wを増加させるときのステップ幅。
e (i): level indicated by the i-th sample of the audio signal S11.
threshold1: Threshold value for determining the end of voiced sound. Signal S11 is smaller than this value
When it becomes, the voiced sound is determined to be finished.
threshold2: Threshold for determining the start of voiced sound. Signal S11 is greater than this value
When it becomes, the voiced sound is determined to be started.
It is set to threshold1 ≦ threshold2.
w: Weighting factor for controlling the gain G15. 0 ≦ w ≦ 1
G15 = reference gain when w = 0, G15 = maximum gain when w = 1.
d1: Step width when the coefficient w is decreased.
d2: Step width when the coefficient w is increased.

すなわち、ルーチン100においては、まず、ステップ101において、第i番目のサンプルの信号レベルe(i)が開始判定のしきい値threshold2よりも小さいかどうかが判別され、小さいときには、処理はステップ101からステップ102に進む。   That is, in the routine 100, first, in step 101, it is determined whether or not the signal level e (i) of the i-th sample is smaller than the threshold value threshold 2 for start determination. Proceed to step 102.

そして、このステップ102において、第i番目のサンプルの信号レベルe(i)が終了判定のしきい値threshold1よりも小さいかどうかが判別され、小さいときには、処理はステップ102からステップ103に進み、このステップ103において、係数wがステップ幅d1だけ小さくされ、ルーチン100を終了する。したがって、図2に示すように、有声音の終了点が検出されたときには、以後、利得G15は次第に小さくなっていく。   Then, in this step 102, it is determined whether or not the signal level e (i) of the i-th sample is smaller than the threshold value threshold 1 for the end determination. When it is smaller, the process proceeds from step 102 to step 103. In step 103, the coefficient w is decreased by the step width d1, and the routine 100 is terminated. Therefore, as shown in FIG. 2, when the end point of the voiced sound is detected, the gain G15 gradually decreases thereafter.

また、ステップ102において、第i番目のサンプルの信号レベルe(i)が終了判定のしきい値threshold1以上のときには、処理はステップ102からこのルーチン100を終了する。したがって、図2に示すように、有声音の終了が検出されるまでの期間(利得G15の大きい期間)は、その利得G15が保持される。   In step 102, when the signal level e (i) of the i-th sample is equal to or higher than the threshold value threshold 1 for the end determination, the process ends the routine 100 from step 102. Therefore, as shown in FIG. 2, the gain G15 is maintained for a period until the end of the voiced sound is detected (a period in which the gain G15 is large).

さらに、ステップ101において、第i番目のサンプルの信号レベルe(i)が開始判定のしきい値threshold2以上のときには、処理はステップ101からステップ104に進み、このステップ104において、係数wがステップ幅d2だけ大きくされ、ルーチン100を終了する。したがって、図2に示すように、有声音の開始点が検出されたときには、以後、利得G15は次第に大きくなっていく。   Further, in step 101, when the signal level e (i) of the i-th sample is equal to or higher than the threshold value threshold2 for the start determination, the process proceeds from step 101 to step 104. In step 104, the coefficient w is increased by the step width. The routine is finished by increasing d2. Therefore, as shown in FIG. 2, when the start point of the voiced sound is detected, the gain G15 gradually increases thereafter.

こうして、ルーチン100によれば、有声音のレベルにしたがってアンプ15の利得G15を制御することにより、子音のレベルを補正しているので、マスキングや継時マスキングによる子音成分の聴感上の減衰を補うことができ、会話の子音部分など音声の明瞭度を向上させることができる。   In this way, according to the routine 100, the gain G15 of the amplifier 15 is controlled according to the level of the voiced sound to correct the consonant level, so that the auditory attenuation of the consonant component due to masking or successive masking is compensated. And intelligibility of speech such as consonant parts of conversation can be improved.

図4は、音声波形の観測結果を示すもので、図4Aはルーチン100による処理を行っていない音声信号S11の波形、図4Bはルーチン100による処理を行った音声信号S13の波形の観測例である。なお、このときの発声内容は、「1行目に書いてください」である。   FIG. 4 shows the observation result of the speech waveform. FIG. 4A shows an example of the waveform of the speech signal S11 not processed by the routine 100, and FIG. 4B shows an example of the waveform of the speech signal S13 processed by the routine 100. is there. The content of the utterance at this time is “Please write on the first line”.

そして、有声音の開始点から終了点までの区間Bは、子音の部分が大きく増幅され、有声音の終了点からの短い期間(矢印A、Fの部分)は、継時マスキングが大きいので、子音は大きく増幅され、次の子音の始まりまでの長い期間(矢印C、D、Eの部分)は、継時マスキングが小さいので、子音はあまり増幅されていない。   And, in the section B from the start point to the end point of the voiced sound, the consonant part is greatly amplified, and in the short period from the end point of the voiced sound (arrow A and F part), the successive masking is large. The consonant is greatly amplified, and during the long period until the start of the next consonant (arrows C, D, and E), since the successive masking is small, the consonant is not so amplified.

したがって、上述の処理回路によれば、音声を残響やエコーなどのある系で伝送あるいは再生するとき、あるいは難聴者や老人が音声を聞くとき、以下のような効果を得ることができる。
1.次に発声される音への継時マスキングだけが軽減されるように、子音が強調されるので、音声がはっきりし、明瞭度を改善できる。
2.マスキングが起きているときだけ子音が強調されるので、常に高域が強調されるときのように、音色のバランスが崩れたような不快感がない。
3.原理的に即時処理ができるので、発声者の口の動きと処理音との間に時間差の生じることがない。また、イヤホンからマイクロフォンへの音響的フィードバックがあっても、残響音のような音にはならないので、聞きやすい。
4.語音の知覚判断にとって重要な音声成分の変化速度や、語音のまとまりとしての情報および過渡的な変化部分の情報が失われない。
5.図4の処理ルーチン100によれば、その処理のステップ数が少ないので、処理が多少遅いDSPであっても、十分に対応することができる。
Therefore, according to the above-described processing circuit, the following effects can be obtained when sound is transmitted or reproduced in a system such as reverberation or echo, or when a hearing-impaired person or an elderly person listens to the sound.
1. Since the consonant is emphasized so that only the time masking to the next uttered sound is reduced, the voice is clear and the clarity can be improved.
2. Since the consonant is emphasized only when masking is occurring, there is no unpleasant feeling that the timbre is out of balance as in the case where the high range is always emphasized.
3. In principle, since immediate processing can be performed, there is no time difference between the movement of the speaker's mouth and the processed sound. Even if there is acoustic feedback from the earphone to the microphone, it does not sound like reverberation, so it is easy to hear.
4). The speed of change of speech components important for speech perception judgment, information as a unit of speech, and information of transitional changes are not lost.
5. According to the processing routine 100 of FIG. 4, since the number of steps of the processing is small, even a DSP that is somewhat slow in processing can sufficiently cope with it.

図5に示すルーチン200は、
threshold=threshold1=threshold2
とすることにより、ルーチン100を簡略化した場合である。すなわち、ルーチン200においては、
threshold :有声音の開始判定および終了判定のしきい値。信号S11がこ
の値よりも小さいと終了と判定し、この値よりも大きいと開
始と判定する。
とされ、他はルーチン100と同様とされる。
The routine 200 shown in FIG.
threshold = threshold1 = threshold2
Thus, the routine 100 is simplified. That is, in the routine 200,
threshold: Threshold value for voiced sound start / end judgment. Signal S11 is
If it is smaller than this value, it is determined that the process is finished.
It is determined that the beginning.
The others are the same as those in the routine 100.

そして、ステップ201において、第i番目のサンプルの信号レベルe(i)がしきい値thresholdと比較され、レベルe(i)がしきい値thresholdよりも小さければ、ステップ202において、係数wがステップ幅d1だけ小さくされ、そうでなければ、ステップ203において、係数wがステップ幅d2だけ大きくされる。   In step 201, the signal level e (i) of the i-th sample is compared with the threshold threshold. If the level e (i) is smaller than the threshold threshold, in step 202, the coefficient w is Otherwise, it is decreased by the width d1, otherwise, in step 203, the coefficient w is increased by the step width d2.

したがって、このルーチン200によれば、処理がさらに簡単であり、DSPの負担がより軽くなる。   Therefore, according to this routine 200, the processing is further simplified, and the burden on the DSP is further reduced.

この発明の一形態を示す系統図である。It is a systematic diagram showing one embodiment of the present invention. この発明を説明するための図である。It is a figure for demonstrating this invention. この発明の一形態の一部を示すフローチャートである。It is a flowchart which shows a part of one form of this invention. この発明を説明するための波形図である。It is a wave form diagram for demonstrating this invention. この発明の一形態の一部を示すフローチャートである。It is a flowchart which shows a part of one form of this invention.

符号の説明Explanation of symbols

12…有声音帯域フィルタ、13…加算回路、14…子音帯域フィルタ、15…可変利得アンプ、21…バンドパスフィルタ、22…レベル算出回路、23…検出回路、24…制御回路、100…処理ルーチン   DESCRIPTION OF SYMBOLS 12 ... Voiced sound band filter, 13 ... Adder circuit, 14 ... Consonant band filter, 15 ... Variable gain amplifier, 21 ... Band pass filter, 22 ... Level calculation circuit, 23 ... Detection circuit, 24 ... Control circuit, 100 ... Processing routine

Claims (8)

入力音声信号の子音の帯域の振幅の変更を行なう振幅変更手段と、
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出手段と、
この抽出手段で抽出した信号から有声音のレベルを示す信号を算出するレベル算出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出手段と、
上記有声音開始点検出手段および上記有声音終了点検出手段により検出された上記有声音の開始点から終了判定点からの立下がりまでの区間のみ、上記振幅変更手段の利得を基準値に対し大きくし、上記有声音終了点検出手段により検出された上記有声音の終了点からの立下がり区間において上記振幅変更手段の利得を上記基準値まで下げるように上記振幅変更手段に対して制御を行なう制御手段と
を有する音声信号の処理装置。
Amplitude changing means for changing the amplitude of the consonant band of the input voice signal;
Extraction means for extracting the pitch component and formant component of the input audio signal;
Level calculation means for calculating a signal indicating the level of voiced sound from the signal extracted by the extraction means;
Voiced sound start point detecting means for detecting the start point of the voiced sound in the input voice signal from the output of the level calculating means;
Voiced sound end point detecting means for detecting the end point of the voiced sound in the input voice signal from the output of the level calculating means;
The gain of the amplitude changing means is increased with respect to the reference value only in the section from the start point of the voiced sound detected by the voiced sound start point detecting means and the voiced sound end point detecting means to the fall from the end determination point. And control for controlling the amplitude changing means so as to lower the gain of the amplitude changing means to the reference value in the fall period from the end point of the voiced sound detected by the voiced sound end point detecting means. An audio signal processing apparatus comprising: means.
請求項1に記載の音声信号の処理装置において、
上記有声音開始点検出手段は、上記有声音の信号レベルが所定のしきい値を越えたとき、これを検出して上記開始点の検出信号とする
ようにした音声信号の処理装置。
The audio signal processing device according to claim 1,
The voiced sound processing device, wherein the voiced sound start point detecting means detects the voiced sound signal level when the signal level of the voiced sound exceeds a predetermined threshold value and detects it as a detection signal of the start point.
請求項1に記載の音声信号の処理装置において、
上記有声音終了点検出手段は、上記有声音の信号レベルが所定のしきい値を下回ったとき、これを検出して上記終了点の検出信号とする
ようにした音声信号の処理装置。
The audio signal processing device according to claim 1,
The voiced sound end point detection means detects the end point detection signal when the signal level of the voiced sound falls below a predetermined threshold value.
請求項1に記載の音声信号の処理装置において、
上記振幅変更手段が可変利得アンプである
ようにした音声信号の処理装置。
The audio signal processing device according to claim 1,
An audio signal processing apparatus in which the amplitude changing means is a variable gain amplifier.
請求項1〜請求項4に記載の音声信号の処理装置において、
上記有声音の開始点から数ミリ秒〜十数ミリ秒の期間を立ち上がり期間とし、上記有声音の終了点から十数ミリ秒〜数十ミリ秒の期間を立ち下がり期間とするとき、上記立ち上がり期間および上記立ち下がり期間に、上記振幅変更手段の利得を変更する
ようにした音声信号の処理装置。
In the audio signal processing apparatus according to claim 1,
When the rising period is a period of several milliseconds to tens of milliseconds from the start point of the voiced sound, and the rising period is a period of tens of milliseconds to several tens of milliseconds from the end point of the voiced sound An audio signal processing apparatus configured to change the gain of the amplitude changing means during the period and the falling period.
入力音声信号の子音の帯域の振幅の変更を行なう振幅変更手段と、
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出手段と、
この抽出手段で抽出した信号から有声音のレベルを示す信号を算出するレベル算出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出手段と、
上記レベル算出手段の出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出手段と、
上記有声音開始点検出手段および上記有声音終了点検出手段により検出された上記有声音の開始点から終了判定点からの立下がりまでの区間のみ、上記振幅変更手段の利得を基準値に対し大きくし、上記有声音のレベルにしたがって上記振幅変更手段の利得を変更するように上記振幅変更手段に対して制御を行なう制御手段と
を有する音声信号の処理装置。
Amplitude changing means for changing the amplitude of the consonant band of the input voice signal;
Extraction means for extracting the pitch component and formant component of the input audio signal;
Level calculation means for calculating a signal indicating the level of voiced sound from the signal extracted by the extraction means;
Voiced sound start point detecting means for detecting the start point of the voiced sound in the input voice signal from the output of the level calculating means;
Voiced sound end point detecting means for detecting the end point of the voiced sound in the input voice signal from the output of the level calculating means;
The gain of the amplitude changing means is increased with respect to the reference value only in the section from the start point of the voiced sound detected by the voiced sound start point detecting means and the voiced sound end point detecting means to the fall from the end determination point. And a control means for controlling the amplitude changing means so as to change the gain of the amplitude changing means in accordance with the level of the voiced sound.
入力音声信号の子音の帯域の振幅の変更を行なう振幅変更ステップと、
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出ステップと、
上記抽出ステップで抽出した信号から有声音のレベルを示す信号を算出するレベル算出ステップと、
このレベル算出ステップの出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出ステップと、
上記レベル算出ステップの出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出ステップと、
上記有声音開始点検出ステップおよび上記有声音終了点検出ステップの出力に基づいて上記振幅変更ステップの利得を制御する制御ステップと
を有し、
この制御ステップは、上記有声音開始点検出ステップが上記開始点を検出したとき、上記振幅変更ステップに対して上記利得を基準値よりも大きくするように制御信号を供給するとともに、
上記有声音終了点検出ステップが上記終了点を検出したとき、上記振幅変更ステップに対して上記利得を上記基準値に戻すように上記制御信号を供給する
ことを特徴とした音声信号の処理方法。
An amplitude changing step for changing the amplitude of the consonant band of the input audio signal;
An extraction step for extracting a pitch component and a formant component of the input audio signal;
A level calculation step for calculating a signal indicating the level of voiced sound from the signal extracted in the extraction step;
A voiced sound start point detecting step for detecting a start point of the voiced sound in the input voice signal from an output of the level calculating step;
A voiced sound end point detecting step of detecting an end point of the voiced sound in the input voice signal from the output of the level calculating step;
A control step for controlling the gain of the amplitude changing step based on outputs of the voiced sound start point detection step and the voiced sound end point detection step;
In this control step, when the voiced sound start point detection step detects the start point, the control step supplies a control signal so that the gain is larger than a reference value with respect to the amplitude change step.
When the voiced sound end point detecting step detects the end point, the control signal is supplied so as to return the gain to the reference value with respect to the amplitude changing step.
入力音声信号の子音の帯域の振幅の変更を行なう振幅変更ステップと、
上記入力音声信号のピッチ成分およびフォルマント成分とを抽出する抽出ステップと、
上記抽出ステップで抽出した信号からレベルを示す信号を算出するレベル算出ステップと、
このレベル算出ステップの出力から上記入力音声信号における上記有声音の開始点を検出する有声音開始点検出ステップと、
上記レベル算出ステップの出力から上記入力音声信号における上記有声音の終了点を検出する有声音終了点検出ステップと、
上記有声音開始点検出ステップおよび上記有声音終了点検出ステップの出力に基づいて上記振幅変更ステップの利得を制御する制御ステップと
を有し、
この制御ステップは、上記有声音開始点検出ステップが上記開始点を検出したとき、上記振幅変更ステップに対して上記利得を基準値よりも大きくするように制御信号を供給するとともに、
有声音のレベルにしたがって上記振幅変更ステップに対して上記利得を変更するように上記制御信号を供給する
ことを特徴とした音声信号の処理方法。
An amplitude changing step for changing the amplitude of the consonant band of the input audio signal;
An extraction step for extracting a pitch component and a formant component of the input audio signal;
A level calculation step for calculating a signal indicating a level from the signal extracted in the extraction step;
A voiced sound start point detecting step for detecting a start point of the voiced sound in the input voice signal from an output of the level calculating step;
A voiced sound end point detecting step of detecting an end point of the voiced sound in the input voice signal from the output of the level calculating step;
A control step for controlling the gain of the amplitude changing step based on outputs of the voiced sound start point detection step and the voiced sound end point detection step;
In this control step, when the voiced sound start point detection step detects the start point, the control step supplies a control signal so that the gain is larger than a reference value with respect to the amplitude change step.
A method for processing an audio signal, comprising: supplying the control signal so as to change the gain with respect to the amplitude changing step according to a level of voiced sound.
JP2007335479A 2007-12-27 2007-12-27 Apparatus for processing voice signal and processing method thereof Pending JP2008102551A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007335479A JP2008102551A (en) 2007-12-27 2007-12-27 Apparatus for processing voice signal and processing method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007335479A JP2008102551A (en) 2007-12-27 2007-12-27 Apparatus for processing voice signal and processing method thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP09914497A Division JP4079478B2 (en) 1997-04-16 1997-04-16 Audio signal processing circuit and processing method

Publications (1)

Publication Number Publication Date
JP2008102551A true JP2008102551A (en) 2008-05-01

Family

ID=39436861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007335479A Pending JP2008102551A (en) 2007-12-27 2007-12-27 Apparatus for processing voice signal and processing method thereof

Country Status (1)

Country Link
JP (1) JP2008102551A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012222933A (en) * 2011-04-07 2012-11-12 Mitsubishi Electric Corp Interconnection power conditioner
US8892434B2 (en) 2011-12-27 2014-11-18 Panasonic Corporation Voice emphasis device
JP2014219470A (en) * 2013-05-02 2014-11-20 ヤマハ株式会社 Speech processing device and program
WO2016203753A1 (en) * 2015-06-16 2016-12-22 日本電気株式会社 Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05199588A (en) * 1992-01-21 1993-08-06 Terumo Corp Hearing aid
JPH0736487A (en) * 1993-07-21 1995-02-07 Sony Corp Speech signal processor
JPH08179792A (en) * 1994-12-22 1996-07-12 Sony Corp Speech processing device
JPH0916193A (en) * 1995-06-30 1997-01-17 Hitachi Ltd Speech speed converter

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05199588A (en) * 1992-01-21 1993-08-06 Terumo Corp Hearing aid
JPH0736487A (en) * 1993-07-21 1995-02-07 Sony Corp Speech signal processor
JPH08179792A (en) * 1994-12-22 1996-07-12 Sony Corp Speech processing device
JPH0916193A (en) * 1995-06-30 1997-01-17 Hitachi Ltd Speech speed converter

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012222933A (en) * 2011-04-07 2012-11-12 Mitsubishi Electric Corp Interconnection power conditioner
US8892434B2 (en) 2011-12-27 2014-11-18 Panasonic Corporation Voice emphasis device
JP2014219470A (en) * 2013-05-02 2014-11-20 ヤマハ株式会社 Speech processing device and program
WO2016203753A1 (en) * 2015-06-16 2016-12-22 日本電気株式会社 Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium

Similar Documents

Publication Publication Date Title
US8374877B2 (en) Hearing aid and hearing-aid processing method
WO2010131470A1 (en) Gain control apparatus and gain control method, and voice output apparatus
US8582792B2 (en) Method and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener
JP2002237785A (en) Method for detecting sid frame by compensation of human audibility
US9119007B2 (en) Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener
JP4876245B2 (en) Consonant processing device, voice information transmission device, and consonant processing method
CN102860047B (en) The control method of hearing aids and hearing aids
JPH0968997A (en) Method and device for processing voice
JP2008102551A (en) Apparatus for processing voice signal and processing method thereof
JP3789503B2 (en) Audio processing device
KR100956167B1 (en) Channel Setting Method for Multichannel Digital Hearing Aids for Korean Frequency Characteristics and Multichannel Digital Hearing Aids
JP4079478B2 (en) Audio signal processing circuit and processing method
KR100883896B1 (en) Voice Clarity Improvement Device and Method
JP2002252894A (en) Sound signal processor
JP3596580B2 (en) Audio signal processing circuit
JP4774255B2 (en) Audio signal processing method, apparatus and program
JP3219892B2 (en) Real-time speech speed converter
JP3303446B2 (en) Audio signal processing device
RU2589298C1 (en) Method of increasing legible and informative audio signals in the noise situation
JP4005166B2 (en) Audio signal processing circuit
JP2001249676A (en) Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise
JP2005202335A (en) Method, device, and program for speech processing
JP2006333396A (en) Audio signal loudspeaker
JP2006324786A (en) Acoustic signal processing apparatus and method
JP2011141540A (en) Voice signal processing device, television receiver, voice signal processing method, program and recording medium

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090825

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110317