JP5457293B2 - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP5457293B2 JP5457293B2 JP2010159600A JP2010159600A JP5457293B2 JP 5457293 B2 JP5457293 B2 JP 5457293B2 JP 2010159600 A JP2010159600 A JP 2010159600A JP 2010159600 A JP2010159600 A JP 2010159600A JP 5457293 B2 JP5457293 B2 JP 5457293B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- speech
- amplitude distribution
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 42
- 230000005236 sound signal Effects 0.000 claims description 18
- 230000001629 suppression Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 29
- 230000003321 amplification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Description
本発明は、音声認識装置において音声信号の入力ゲインを制御する技術に関するものである。 The present invention relates to a technique for controlling an input gain of a voice signal in a voice recognition device.
音声認識装置において音声信号の入力ゲインを制御する技術としては、過去の音声認識の成功率に応じて入力ゲインを調整する技術や(特許文献1)、過去の音声認識において認識対象とした時間区間における音声信号レベルに応じて入力ゲインを設定する技術(特許文献2)が知られている。 As a technique for controlling the input gain of a speech signal in the speech recognition apparatus, a technique for adjusting the input gain according to a past speech recognition success rate (Patent Document 1), or a time interval targeted for recognition in past speech recognition There is known a technique (Patent Document 2) for setting an input gain in accordance with an audio signal level.
たとえば、自動車内などの周辺の音響環境が刻々と変化する状況で音声認識装置を使用する場合、音声信号に含まれる騒音レベルも刻々と変化する。
したがって、上述のように、過去の音声認識の成功率や過去の音声区間における音声信号レベルなどの、過去の音声認識実行時の状況にのみ基づいて入力ゲインを調整したのでは、必ずしも、現在の騒音状況に適した入力ゲインを設定することはできない。
そこで、本発明は、音声信号の入力ゲインとして、より現在の騒音状況に適した入力ゲインを設定することができる音声認識装置を提供することを課題とする。
For example, when the voice recognition device is used in a situation where the surrounding acoustic environment such as in an automobile changes every moment, the noise level included in the voice signal also changes every moment.
Therefore, as described above, if the input gain is adjusted based only on the situation at the time of past speech recognition, such as the success rate of past speech recognition and the speech signal level in the past speech section, An input gain suitable for the noise situation cannot be set.
Therefore, an object of the present invention is to provide a speech recognition apparatus that can set an input gain more suitable for the current noise situation as an input gain of a speech signal.
前記課題達成のために、本発明は、音声認識を行う音声認識装置を、マイクと、マイクから出力される入力音声信号を増幅する入力アンプと、前記入力アンプで増幅された信号を、入力音声データに変換するAD変換器と、音声認識実行指示に応答して、前記AD変換器の出力する入力音声データを対象とする音声認識処理を行う音声認識エンジンと、騒音レベル検出部と、発話音声レベル検出部と、前記入力アンプのゲインを制御する入力ゲイン制御部とを含めて構成したものである。ここで、前記音声認識エンジンにおいて、前記音声認識処理において、前記入力音声データにユーザの発話音声が含まれる時間区間を発話音声区間として検出すると共に、検出した発話音声区間の入力音声データに含まれる発話音声の内容を識別し、前記騒音レベル検出部は、前記発話音声区間以外の時間区間、または、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データに基づいて繰り返し算出し、前記発話音声レベル検出部は、前記音声認識処理の各回において検出された各発話音声区間の前記入力音声信号に含まれる発話音声の平均的なレベルを、前記入力音声データに基づいて算出し、前記入力ゲイン制御部は、前記音声認識処理の各回の開始時に、前記騒音レベル検出部によって最後に算出された騒音のレベルと、発話音声レベル検出部によって検出されている発話音声の平均的なレベルとより、当該回の前記音声認識処理で検出される発話音声区間の前記入力音声信号のレベルを推定し、推定した前記入力音声信号のレベルを前記入力アンプで増幅したレベルが、前記音声認識エンジンに適合したレベルとなるように、前記入力アンプのゲインを設定するものである。 In order to achieve the above object, the present invention provides a voice recognition device that performs voice recognition, a microphone, an input amplifier that amplifies an input voice signal output from the microphone, and a signal amplified by the input amplifier. An AD converter for converting data, a speech recognition engine for performing speech recognition processing on input speech data output from the AD converter in response to a speech recognition execution instruction, a noise level detection unit, and speech speech A level detection unit and an input gain control unit for controlling the gain of the input amplifier are included. Here, in the voice recognition engine, in the voice recognition process, a time interval in which the input voice data includes the user's uttered voice is detected as the uttered voice period, and is included in the input voice data of the detected uttered voice period. Identifying the content of the uttered voice, the noise level detection unit, in a time section other than the utterance voice section, or a time section in which the voice recognition processing is not performed, the noise level included in the input voice signal, Repetitively calculating based on the input voice data, the utterance voice level detection unit, the average level of the utterance voice included in the input voice signal of each utterance voice section detected in each time of the voice recognition processing, The input gain control unit calculates the noise level at the start of each speech recognition process. The input of the speech speech section detected by the speech recognition process of the current time based on the level of noise finally calculated by the detection unit and the average level of speech speech detected by the speech speech level detection unit Estimating the level of the voice signal, and setting the gain of the input amplifier so that the level obtained by amplifying the estimated level of the input voice signal by the input amplifier is a level suitable for the voice recognition engine. .
このような音声認識装置によれば、騒音レベル検出部において騒音のレベルを繰り返し実行し、音声認識処理の開始時に、最後に検出された騒音のレベル、従って、直近の時点における騒音のレベルと、前回以前の音声認識処理実行時の発話音声の平均的なレベルとに基づいて入力音声信号のレベルを推定し、推定した前記入力音声信号のレベルを前記入力アンプで増幅したレベルが、前記音声認識エンジンに適合したレベルとなるように入力アンプのゲインを設定する。 According to such a voice recognition device, the noise level detection unit repeatedly executes the noise level, and at the start of the voice recognition process, the noise level detected last, and therefore the noise level at the most recent time point, The level of the input voice signal is estimated based on the average level of the uttered voice at the time of the previous voice recognition processing execution, and the level obtained by amplifying the estimated level of the input voice signal by the input amplifier is the voice recognition. Set the gain of the input amplifier to a level suitable for the engine.
そして、直近の時点における騒音のレベルは、現在の騒音状況における騒音のレベルと近似していることが期待できる。よって、このような音声認識装置によれば、音声認識処理の開始時に、より現在の騒音状況に適したゲインを入力アンプに設定することができるようになる。 The noise level at the most recent time can be expected to approximate the noise level in the current noise situation. Therefore, according to such a speech recognition apparatus, a gain more suitable for the current noise situation can be set in the input amplifier at the start of speech recognition processing.
ここで、以上のような音声認識装置は、前記入力ゲイン制御部において、前記音声認識処理が行われていない時間区間中、前記入力アンプのゲインを、前記入力音声信号のレベルが取り得る最大レベルを前記入力アンプで増幅したレベルが、前記AD変換器の入力レンジを越えないように予め定めた所定の値に設定するように構成することも、前記音声認識処理が行われていない時間区間における騒音のレベルの適正な算出を担保する上で好ましい。 Here, in the speech recognition apparatus as described above, in the input gain control unit, during the time interval in which the speech recognition processing is not performed, the gain of the input amplifier is set to the maximum level that the level of the input speech signal can take. Is set to a predetermined value so that the level amplified by the input amplifier does not exceed the input range of the AD converter, or in a time interval in which the speech recognition processing is not performed This is preferable in ensuring proper calculation of the noise level.
また、以上の音声認識装置が、オーディオデータが表すオーディオ音を出力するオーディオ機器と共に用いられる場合には、音声認識装置に、前記音声認識処理が行われている期間中、前記オーディオ機器のオーディオ音の出力を抑止する出力抑止部を設け、前記騒音レベル検出部において、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データと前記オーディオデータとに基づいて算出するようにしてもよい。 Further, when the above voice recognition device is used together with an audio device that outputs an audio sound represented by audio data, the audio recognition device of the audio device is in the period during which the voice recognition processing is performed. An output suppression unit that suppresses the output of the input audio signal and the audio data in the noise level detection unit in a time interval in which the speech recognition process is not performed. You may make it calculate based on these.
ここで、以上の音声認識装置は、より具体的には、前記騒音レベル検出部において、前記騒音のレベルとして騒音の振幅分布を算出し、前記発話音声レベル検出部において、前記発話音声の平均的なレベルとして、前記発話音声の平均的な振幅分布を算出し、前記入力ゲイン制御部において、前記入力音声信号のレベルとして、前記入力音声信号の振幅分布を推定するものとしてもよい。 More specifically, in the above speech recognition apparatus, the noise level detection unit calculates a noise amplitude distribution as the noise level, and the utterance speech level detection unit calculates the average of the utterance speech. Alternatively, an average amplitude distribution of the uttered voice may be calculated as the level, and the input gain control unit may estimate the amplitude distribution of the input voice signal as the level of the input voice signal.
また、この場合には、前記入力ゲイン制御部において、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジ以下である場合には、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲の中心の振幅値を前記入力アンプで増幅した後の振幅値が、前記音声認識エンジンの入力レンジの中心の振幅値となるように、前記入力アンプのゲインを設定することが好ましい。 In this case, when the dynamic range of the amplitude distribution range indicated by the estimated amplitude distribution of the input speech signal is less than or equal to the dynamic range of the input range of the speech recognition engine in the input gain control unit. The amplitude value after the amplitude value at the center of the amplitude distribution range indicated by the estimated amplitude distribution of the input speech signal is amplified by the input amplifier becomes the amplitude value at the center of the input range of the speech recognition engine. It is preferable to set the gain of the input amplifier.
また、この場合には、前記入力ゲイン制御部において、前記推定した入力音声信号の振幅分布における振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジを越える場合には、前記推定した入力音声信号の振幅分布における振幅の分布範囲のうちの、前記音声認識エンジンの入力レンジのダイナミックレンジと同じダイナミックレンジとなる範囲部分であって、当該範囲分布内の度数の合計が最大となる部分範囲を選定し、選定した部分範囲を前記入力アンプで増幅した後の範囲が、前記音声認識エンジンの入力レンジと一致するように、前記入力アンプのゲインを設定することが好ましい。 In this case, in the input gain control unit, if the dynamic range of the amplitude distribution range in the estimated amplitude distribution of the input speech signal exceeds the dynamic range of the input range of the speech recognition engine, Of the amplitude distribution range in the estimated amplitude distribution of the input speech signal, the range portion having the same dynamic range as the dynamic range of the input range of the speech recognition engine, and the sum of the frequencies in the range distribution is the maximum Preferably, the gain of the input amplifier is set so that the range after the selected partial range is amplified by the input amplifier matches the input range of the speech recognition engine.
以上のように、本発明によれば、音声信号の入力ゲインとして、より現在の騒音状況に適した入力ゲインを設定することができる音声認識装置を提供することができる。 As described above, according to the present invention, it is possible to provide a speech recognition apparatus that can set an input gain more suitable for the current noise situation as an input gain of a speech signal.
以下、本発明の実施形態について説明する。
図1に、本実施形態に係る音声認識システムの構成を示す。
図示するように音声認識システムは、図示を省略したオーディオ機器から出力されるオーディオデータをアナログオーディオ信号にDA変換するDA変換器1、オーディオ信号を出力ゲインSpGで増幅する出力アンプ2、オーディオアンプの出力するオーディオ信号が表す音をスピーカ出力音として出力するスピーカ3、マイク4、マイク4でピックアップした音声を表す入力音声信号を入力ゲインGで増幅する入力アンプ5、入力アンプ5で増幅された入力音声信号を入力音声データにデジタル変換するAD変換器6、AD変換器6で変換された入力音声データに対して音声認識処理を実行する音声認識エンジン7、トークスイッチ8、出力アンプ2の出力ゲインSpGを制御する出力ゲイン制御部9、入力アンプ5のゲインGを制御する入力ゲイン制御部10とを備えている。
Hereinafter, embodiments of the present invention will be described.
FIG. 1 shows the configuration of a speech recognition system according to this embodiment.
As shown in the figure, the speech recognition system includes a DA converter 1 that DA converts audio data output from an audio device (not shown) into an analog audio signal, an output amplifier 2 that amplifies the audio signal with an output gain SpG, and an audio amplifier. The sound represented by the output audio signal is output as the speaker output sound. The speaker 3, the microphone 4, the input sound signal representing the sound picked up by the microphone 4, the input amplifier 5 that amplifies the sound by the input gain G, and the input that is amplified by the input amplifier 5 An AD converter 6 for digitally converting a voice signal into input voice data, a voice recognition engine 7 for executing voice recognition processing on the input voice data converted by the AD converter 6, a talk switch 8, and an output gain of the output amplifier 2 The output gain control unit 9 for controlling SpG and the gain G of the input amplifier 5 are controlled. And an input gain control unit 10.
このような構成において、音声認識エンジン7は、ユーザのトークスイッチ8の押し下げが発生すると、音声認識処理を開始する。音声認識処理では、入力音声データに、ユーザの発話音声が含まれる区間である発話音声区間の検出と、発話音声区間中の入力音声データに対する音声認識(ユーザの発話内容の識別)を行う。また、音声認識エンジン7は、ユーザのトークスイッチ8の押し下げ時点から発話音声区間の終了時点までオンとなる音声認識中信号Ronを出力すると共に、音声認識処理の終了後に、音声認識処理中で検出した発話音声区間の時間位置を表す発話音声区間データSonを出力する。 In such a configuration, the voice recognition engine 7 starts the voice recognition process when the user depresses the talk switch 8. In the voice recognition processing, detection of an utterance voice section, which is a section in which the user's utterance voice is included in the input voice data, and voice recognition (identification of user utterance contents) for the input voice data in the utterance voice section are performed. The speech recognition engine 7 outputs a speech recognition in-progress signal Ron that is turned on from the time the user depresses the talk switch 8 to the end of the speech speech section, and also detects during the speech recognition processing after the speech recognition processing ends. The utterance voice section data Son representing the time position of the uttered voice section is output.
そして、出力ゲイン制御部9は、音声認識中信号Ronがオフである期間中は、出力アンプ2の出力ゲインSpGをオーディオ機器から出力されるボリューム信号Volに従って制御し、音声認識中信号Ronがオンである期間中は、出力アンプ2の出力ゲインSpGを0として、スピーカ出力音の発生を抑止する。 The output gain control unit 9 controls the output gain SpG of the output amplifier 2 according to the volume signal Vol output from the audio device during the period in which the voice recognition in-progress signal Ron is off, and the voice recognition in-progress signal Ron is on. During this period, the output gain SpG of the output amplifier 2 is set to 0 to suppress the generation of speaker output sound.
さて、ここで、マイク4が出力する入力音声信号には、その成分として、スピーカ3から出力されるスピーカ出力音aと、騒音bと、ユーザの発話音声sが含まれる。
そして、入力ゲイン制御部10は、騒音bの振幅分布を算出する第1騒音振幅分布検出部11と、騒音bの振幅分布gb(n)を算出する第2騒音振幅分布検出部12と、騒音bの最新の振幅分布gb(n)を格納する騒音振幅分布レジスタ13と、発話音声sの平均の振幅分布f(n)を検出する音声振幅分布検出部14と、発話音声sの平均の音声振幅分布f(n)を格納する音声振幅分布レジスタ15と、畳込演算器16と、ゲイン制御部17とを備えている。なお、振幅分布Z(n)におけるnは、振幅分布Z(n)が、振幅値(dB)をn個の振幅値の階級に離散化して振幅分布を表したものであることを表している。
Here, the input audio signal output from the microphone 4 includes, as its components, the speaker output sound a, noise b, and the user's uttered speech s output from the speaker 3.
The input gain control unit 10 includes a first noise amplitude distribution detection unit 11 that calculates the amplitude distribution of the noise b, a second noise amplitude distribution detection unit 12 that calculates the amplitude distribution gb (n) of the noise b, and noise. b, the noise amplitude distribution register 13 for storing the latest amplitude distribution gb (n), the voice amplitude distribution detecting unit 14 for detecting the average amplitude distribution f (n) of the uttered voice s, and the average voice of the uttered voice s. A voice amplitude distribution register 15 that stores the amplitude distribution f (n), a convolution calculator 16, and a gain control unit 17 are provided. Note that n in the amplitude distribution Z (n) represents that the amplitude distribution Z (n) represents the amplitude distribution by discretizing the amplitude value (dB) into a class of n amplitude values. .
ここで、第1騒音振幅分布検出部11、第2騒音振幅分布検出部12、音声振幅分布検出部14の振幅分布の算出のタイミングについて図2を用いて説明する。
ここで、図2では、マイク4が出力する入力音声信号をxとして、音声認識エンジン7が出力する発話音声区間データSonで表される発話音声区間をSonDとして示す。
図示するように、トークスイッチ8の押し下げが発生するまでの時間区間中、マイク4が出力する入力音声信号xには、その成分として、スピーカ出力音aと騒音bとが含まれる。
第1騒音振幅分布検出部11は、この入力音声信号xに成分としてスピーカ出力音aと騒音bとが含まれる時間区間である、音声認識中信号Ronがオフである期間を算出実行期間として、算出実行期間中、騒音bの振幅分布gb(n)の算出を行う。ここで、この第1騒音振幅分布検出部11における騒音bの振幅分布gb(n)の算出法の詳細については後述する。
Here, the timing of calculation of the amplitude distribution of the first noise amplitude distribution detection unit 11, the second noise amplitude distribution detection unit 12, and the audio amplitude distribution detection unit 14 will be described with reference to FIG.
Here, in FIG. 2, the input voice signal output from the microphone 4 is represented as x, and the speech voice section represented by the speech voice section data Son output from the voice recognition engine 7 is represented as SonD.
As shown in the figure, during the time interval until the talk switch 8 is depressed, the input audio signal x output from the microphone 4 includes a speaker output sound a and noise b as its components.
The first noise amplitude distribution detecting unit 11 is a time interval in which the speaker output sound a and the noise b are included as components in the input sound signal x, and a period during which the sound recognition signal Ron is off is set as a calculation execution period. During the calculation execution period, the amplitude distribution gb (n) of the noise b is calculated. Here, the details of the calculation method of the amplitude distribution gb (n) of the noise b in the first noise amplitude distribution detector 11 will be described later.
次に、トークスイッチ8の押し下げが発生し、音声認識中信号Ronがオンとなると、スピーカ出力音が抑止されるので、音声認識中信号Ronがオンとなってから、音声認識中信号Ronがオフとなるまでの間の、発話音声区間Sonで表される発話音声区間SonD以外の期間中は、マイク4が出力する入力音声信号xには、その成分として、騒音bのみが含まれることとなる。 Next, when the talk switch 8 is pushed down and the voice recognition signal Ron is turned on, the speaker output sound is suppressed. Therefore, after the voice recognition signal Ron is turned on, the voice recognition signal Ron is turned off. During the period other than the utterance voice section SonD represented by the utterance voice section Son, the input voice signal x output from the microphone 4 includes only noise b as its component. .
第2騒音振幅分布検出部12は、この入力音声信号xに成分として騒音bのみが含まれる時間区間である、音声認識中信号Ronがオンである期間中の、発話音声区間データSonで表される発話音声区間SonD以外の期間を算出実行期間として、算出実行期間中、騒音bの振幅分布gb(n)の算出を行う。ここで、第2騒音振幅分布検出部12の騒音bの振幅分布gb(n)の算出法の詳細については後述する。 The second noise amplitude distribution detection unit 12 is represented by the speech voice section data Son during the period in which the voice recognition signal Ron is on, which is a time section in which only the noise b is included as a component in the input voice signal x. The amplitude distribution gb (n) of the noise b is calculated during the calculation execution period, with the period other than the speech voice section SonD as the calculation execution period. Here, details of a method of calculating the amplitude distribution gb (n) of the noise b of the second noise amplitude distribution detection unit 12 will be described later.
次に、発話音声区間SonDは、ユーザが発話を行っている時間区間であるので、マイク4が出力する入力音声信号xには、その成分として、騒音bと発話音声sとが含まれることになる。
音声振幅分布検出部14は、音声認識中信号Ronがオンである期間を算出実行期間とする。そして、入力音声信号xに成分として騒音bのみが含まれる時間区間である、発話音声区間データSonで表される発話音声区間SonD以外の算出実行期間中の時間区間の入力音声信号xと、入力音声信号xに成分として騒音bと発話音声sとが含まれる時間区間である、算出実行期間中の発話音声区間データSonで表される発話音声区間SonD中の入力音声信号xとを用いて発話音声sの平均の振幅分布f(n)の算出を実行する。ここで、この音声振幅分布検出部14における発話音声sの平均の振幅分布f(n)の算出法の詳細については後述する。
Next, since the speech voice section SonD is a time section in which the user is speaking, the input voice signal x output from the microphone 4 includes noise b and speech voice s as its components. Become.
The voice amplitude distribution detection unit 14 sets a period during which the voice recognition in-progress signal Ron is on as a calculation execution period. Then, the input speech signal x in the time interval during the calculation execution period other than the speech speech segment SonD represented by the speech speech segment data Son, which is a time segment in which only the noise b is included as a component in the input speech signal x, Speaking using the input speech signal x in the speech speech section SonD represented by the speech speech section data Son during the calculation execution period, which is a time section in which the speech signal x includes the noise b and the speech speech s as components. Calculation of the average amplitude distribution f (n) of the voice s is executed. Here, the details of the method of calculating the average amplitude distribution f (n) of the uttered speech s in the speech amplitude distribution detection unit 14 will be described later.
さて、第1騒音振幅分布検出部11と、第2騒音分布検出部は、前述した算出実行期間中、一定の単位時間区間の入力音声信号xを用いた振幅分布gb(n)の算出を繰り返し行い、騒音bの振幅分布gb(n)を算出する度に、算出した振幅分布gb(n)によって、騒音振幅分布レジスタ13の内容を更新する。なお、算出実行期間が、前述した単位時間区間に満たない場合、当該算出実行期間中には、振幅分布gb(n)の算出は行われず、騒音振幅分布レジスタ13の内容の更新も行われないこととなる。 Now, the first noise amplitude distribution detection unit 11 and the second noise distribution detection unit repeatedly calculate the amplitude distribution gb (n) using the input speech signal x in a certain unit time interval during the above-described calculation execution period. Whenever the amplitude distribution gb (n) of the noise b is calculated, the content of the noise amplitude distribution register 13 is updated with the calculated amplitude distribution gb (n). When the calculation execution period is less than the above-described unit time interval, the amplitude distribution gb (n) is not calculated during the calculation execution period, and the content of the noise amplitude distribution register 13 is not updated. It will be.
したがって、騒音振幅分布レジスタ13に格納される騒音bの振幅分布gb(n)は、常に、第1騒音振幅分布検出部11と第2騒音分布検出部で算出された騒音bの振幅分布gb(n)のうちの、最後に算出された最新の騒音bの振幅分布となる。
次に、音声振幅分布検出部14における発話音声sの平均の振幅分布f(n)の算出は、音声認識処理の実行の度に行われ、音声振幅分布検出部14は、発話音声sの平均の振幅分布f(n)の算出の度に、算出した振幅分布f(n)で音声振幅分布レジスタ15の内容を更新する。したがって、音声認識処理の実行開始時に、音声振幅レジスタには、前回の音声認識処理の実行時に算出された発話音声sの平均の振幅分布f(n)が格納されていることになる。
Therefore, the amplitude distribution gb (n) of the noise b stored in the noise amplitude distribution register 13 is always the amplitude distribution gb (bb) of the noise b calculated by the first noise amplitude distribution detector 11 and the second noise distribution detector. n) of the latest amplitude b of the latest noise b calculated.
Next, the average amplitude distribution f (n) of the utterance voice s in the voice amplitude distribution detection unit 14 is calculated every time the voice recognition process is executed, and the voice amplitude distribution detection unit 14 calculates the average of the utterance voice s. Each time the amplitude distribution f (n) is calculated, the contents of the audio amplitude distribution register 15 are updated with the calculated amplitude distribution f (n). Therefore, at the start of execution of the speech recognition process, the average amplitude distribution f (n) of the uttered speech s calculated at the previous execution of the speech recognition process is stored in the speech amplitude register.
次に、畳込演算器16は、騒音振幅分布レジスタ13に格納されている騒音bの振幅分布gb(n)と、音声振幅レジスタに格納されている発話音声sの平均の振幅分布f(n)との畳み込み演算を式1に従って行い、マイク4からの入力音声信号の振幅分布h(n)を算出する。なお、式1中において、Smaxは発話音声sの最大値の階級の番号、Bmaxは騒音bの最大値の階級の番号である。 Next, the convolution calculator 16 has an amplitude distribution gb (n) of the noise b stored in the noise amplitude distribution register 13 and an average amplitude distribution f (n) of the uttered speech s stored in the voice amplitude register. ) And the amplitude distribution h (n) of the input audio signal from the microphone 4 is calculated. In Equation 1, Smax is the maximum class number of the speech voice s, and Bmax is the maximum class number of the noise b.
次に、入力ゲイン制御部10は、図3に示す入力ゲイン制御処理によって、入力アンプ5の入力ゲインG(dB)を制御する。
いま、音声認識エンジン7で適正に処理可能な入力音声データのレンジを規格レンジRとして、規格レンジがRminからRmaxまでの範囲であるものとする。また、規格レンジのダイナミックレンジRmax/Rminを、音声認識エンジン7のダイナミックレンジの規格値Dと呼ぶこととする。
Next, the input gain control unit 10 controls the input gain G (dB) of the input amplifier 5 by the input gain control process shown in FIG.
Assume that the range of input speech data that can be properly processed by the speech recognition engine 7 is a standard range R, and the standard range is a range from Rmin to Rmax. The dynamic range Rmax / Rmin of the standard range is referred to as the standard value D of the dynamic range of the speech recognition engine 7.
さて、図3に示すように、入力ゲイン制御処理では、まず、入力アンプ5の入力ゲインGを予め定めた最小ゲインGminに設定し(ステップ302)、音声認識エンジン7から出力される音声認識中信号Ronが1となって音声認識処理が開始されるのを待つ(ステップ304)。
次に、音声認識中信号Ronがオンとなって音声認識処理が開始されたならば(ステップ304)、畳込演算器16から出力されているマイク4からの入力音声信号の振幅分布h(n)が示す振幅分布の最大値(度数が存在する振幅の最大値)をHmax、振幅分布h(n)が示す振幅分布の最小値(度数が存在する振幅の最小値)をHminとして(ステップ306)、振幅分布h(n)が表すマイク4からの入力音声信号のダイナミックレンジHmax/Hminが、音声認識エンジン7のダイナミックレンジの規格値D以下であるかどうかを調べる(ステップ308)。
As shown in FIG. 3, in the input gain control process, first, the input gain G of the input amplifier 5 is set to a predetermined minimum gain Gmin (step 302), and during speech recognition output from the speech recognition engine 7. Wait until the signal Ron becomes 1 and the speech recognition process is started (step 304).
Next, when the speech recognition in-process signal Ron is turned on and the speech recognition processing is started (step 304), the amplitude distribution h (n) of the input speech signal from the microphone 4 output from the convolution calculator 16 is reached. Hmax is the maximum value of the amplitude distribution indicated by () (the maximum value of the amplitude where the frequency is present), and Hmin is the minimum value (minimum value of the amplitude where the frequency is present) indicated by the amplitude distribution h (n) (step 306). ), Whether the dynamic range Hmax / Hmin of the input voice signal from the microphone 4 represented by the amplitude distribution h (n) is equal to or less than the standard value D of the dynamic range of the voice recognition engine 7 is checked (step 308).
そして、入力音声信号のダイナミックレンジHmax/Hminが、音声認識エンジン7のダイナミックレンジの規格値D以下であれば(ステップ308)、入力音声信号のレンジの中心Hmid=(Hmax+Hmin)/2と、音声認識エンジン7の入力音声データの規格レンジの中心Rmid=(Rmax+Rmin)/2とを求める(ステップ310)。 If the dynamic range Hmax / Hmin of the input speech signal is equal to or less than the standard value D of the dynamic range of the speech recognition engine 7 (step 308), the center of the range of the input speech signal Hmid = (Hmax + Hmin) / 2 Then, the center Rmid = (Rmax + Rmin) / 2 of the standard range of the input speech data of the speech recognition engine 7 is obtained (step 310).
また、次に、入力アンプ5の入力ゲインGを、Rmid/Hmidに設定する(ステップ312)。
この結果、音声認識エンジン7の規格レンジのダイナミックレンジが、入力音声データのダイナミックレンジ以上である場合には、次のように入力アンプ5の入力ゲインGが設定されることになる。
すなわち、いま、図4a1に示すように、振幅分布h(n)の中心Hmidが、音声認識エンジン7の規格レンジRの中心Rmidからずれた位置にあるものとする。ここで、振幅分布h(n)は、振幅分布h(n)と等しい振幅分布を持つ入力音声信号を、入力アンプ5で入力音声信号を増幅せずにAD変換した場合に音声認識エンジン7に入力する入力音声データの振幅分布に一致する。
Next, the input gain G of the input amplifier 5 is set to Rmid / Hmid (step 312).
As a result, when the dynamic range of the standard range of the speech recognition engine 7 is equal to or greater than the dynamic range of the input speech data, the input gain G of the input amplifier 5 is set as follows.
That is, it is assumed that the center Hmid of the amplitude distribution h (n) is at a position shifted from the center Rmid of the standard range R of the speech recognition engine 7, as shown in FIG. Here, the amplitude distribution h (n) is input to the speech recognition engine 7 when an input speech signal having an amplitude distribution equal to the amplitude distribution h (n) is AD converted without amplifying the input speech signal by the input amplifier 5. It matches the amplitude distribution of the input voice data to be input.
そして、このような場合に、ステップ312の入力ゲインGの設定によれば、図4a2に示すように、振幅分布h(n)と等しい振幅分布を持つ入力音声信号を、ステップ312で設定した入力ゲインGで増幅してAD変換した入力音声データの振幅分布hin(n)、すなわち、ステップ312で入力ゲインGを上述のように設定した場合の音声認識エンジン7に入力する入力音声データの振幅分布hin(n)は、その中心が、音声認識エンジン7の規格レンジRの中心Rmidに一致したものとなる。また、音声認識処理時に実際にマイク4がピックアップした入力音声信号は、振幅分布h(n)と近似した振幅分布を持つことが期待できる。 In such a case, according to the setting of the input gain G in step 312, as shown in FIG. 4a2, an input audio signal having an amplitude distribution equal to the amplitude distribution h (n) is input in step 312. Amplitude distribution h in (n) of input voice data amplified by gain G and AD converted, that is, amplitude distribution of input voice data input to voice recognition engine 7 when input gain G is set in step 312 as described above. The center of “hin (n)” coincides with the center Rmid of the standard range R of the speech recognition engine 7. In addition, the input voice signal actually picked up by the microphone 4 during the voice recognition process can be expected to have an amplitude distribution approximate to the amplitude distribution h (n).
よって、このような入力ゲインGの設定によれば、音声認識エンジン7に入力する入力音声データの振幅分布hin(n)の全体が、音声認識エンジン7の規格レンジR内の、規格レンジRの中央部分に収まるようになる。ここで、一般的に、音声認識エンジン7は、音声認識エンジン7の規格レンジR内の中央部分に振幅分布を持つ入力音声データに対して精度良く音声認識を行うことができる。 Therefore, according to such setting of the input gain G, the entire amplitude distribution h in (n) of the input speech data input to the speech recognition engine 7 is within the standard range R of the speech recognition engine 7. Fits in the center part. Here, in general, the speech recognition engine 7 can perform speech recognition with high accuracy on input speech data having an amplitude distribution in the central portion within the standard range R of the speech recognition engine 7.
さて、図3に戻り、ステップ312で入力ゲインGを設定したならば音声認識エンジン7から出力される音声認識中信号Ronがオフとなって音声認識処理が終了するのを待って(ステップ314)、ステップ302からの処理に戻る。
一方、力音声信号のダイナミックレンジHmax/Hminが、音声認識エンジン7のダイナミックレンジの規格値Dを越えていれば(ステップ308)、ダイナミックレンジMD=Mmax/Mminが音声認識エンジン7の規格レンジDと等しくなるレンジであって、かつ、入力音声信号の振幅分布h(n)上で当該レンジ中に含まれる度数(当該レンジ中に含まれる振幅値の出現頻度の総数)が最大となるレンジMを算出する(ステップ316)。但し、MminはレンジMの最小値、MmaxはレンジMの最大値を表す。
Returning to FIG. 3, if the input gain G is set in step 312, the voice recognition in-progress signal Ron output from the voice recognition engine 7 is turned off and the voice recognition process ends (step 314). Return to the processing from step 302.
On the other hand, if the dynamic range Hmax / Hmin of the force speech signal exceeds the standard value D of the dynamic range of the speech recognition engine 7 (step 308), the dynamic range MD = Mmax / Mmin is the standard range D of the speech recognition engine 7. And the frequency M included in the range on the amplitude distribution h (n) of the input audio signal (the total number of occurrences of the amplitude value included in the range) is maximized. Is calculated (step 316). However, Mmin represents the minimum value of the range M, and Mmax represents the maximum value of the range M.
また、次に、入力アンプ5の入力ゲインGを、Rmin/Mminに設定する(ステップ318)。
この結果、音声認識エンジン7の規格レンジのダイナミックレンジが、入力音声データのダイナミックレンジ未満である場合には、次のように入力アンプ5の入力ゲインGが設定されることになる。
すなわち、いま、図4b1に示すように、振幅分布h(n)が、音声認識エンジン7の規格レンジR内にその端部分が含まれるように存在しているものとする。ここで、振幅分布h(n)は、振幅分布h(n)と等しい振幅分布を持つ入力音声信号を、入力アンプ5で入力音声信号を増幅せずにAD変換した場合に音声認識エンジン7に入力する入力音声データの振幅分布に一致する。
Next, the input gain G of the input amplifier 5 is set to Rmin / Mmin (step 318).
As a result, when the dynamic range of the standard range of the speech recognition engine 7 is less than the dynamic range of the input speech data, the input gain G of the input amplifier 5 is set as follows.
That is, it is assumed that the amplitude distribution h (n) exists so that its end portion is included in the standard range R of the speech recognition engine 7, as shown in FIG. 4b1. Here, the amplitude distribution h (n) is input to the speech recognition engine 7 when an input speech signal having an amplitude distribution equal to the amplitude distribution h (n) is AD converted without amplifying the input speech signal by the input amplifier 5. It matches the amplitude distribution of the input voice data to be input.
そして、このような場合に、ステップ318の入力ゲインGの設定によれば、図4b2に示すように、振幅分布h(n)と等しい振幅分布を持つ入力音声信号を、ステップ318で設定した入力ゲインGで増幅してAD変換した入力音声データの振幅分布hin(n)、すなわち、ステップ318で上述のように入力ゲインGを設定した場合の音声認識エンジン7に入力する入力音声データの振幅分布hin(n)は、音声認識エンジン7の規格レンジR内の振幅値の度数(出現確率)が最大になるものとなる。また、音声認識処理時に実際にマイク4がピックアップした入力音声信号は、振幅分布h(n)と近似した振幅分布を持つことが期待できる。 In such a case, according to the setting of the input gain G in step 318, an input audio signal having an amplitude distribution equal to the amplitude distribution h (n) is input as set in step 318 as shown in FIG. 4b2. Amplitude distribution h in (n) of input voice data amplified by gain G and AD-converted, that is, amplitude distribution of input voice data input to voice recognition engine 7 when input gain G is set in step 318 as described above. Hin (n) has the maximum frequency (appearance probability) of the amplitude value within the standard range R of the speech recognition engine 7. In addition, the input voice signal actually picked up by the microphone 4 during the voice recognition process can be expected to have an amplitude distribution approximate to the amplitude distribution h (n).
よって、このような入力ゲインGの設定によれば、音声認識エンジン7に入力する入力音声データは、度数(出現確率)の大きい振幅値の範囲、すなわち、主要と思われる振幅値の範囲が、音声認識エンジン7の規格レンジR内に収まるようになり、これにより、音声認識エンジン7で良好に音声認識を行えるようになる。 Therefore, according to such setting of the input gain G, the input speech data input to the speech recognition engine 7 has a range of amplitude values with a high frequency (appearance probability), that is, a range of amplitude values considered to be main. The voice recognition engine 7 is within the standard range R, so that the voice recognition engine 7 can perform voice recognition satisfactorily.
さて、図3に戻り、ステップ318で入力ゲインGを設定したならば、音声認識エンジン7から出力される音声認識中信号Ronがオフとなって音声認識処理が終了するのを待って(ステップ314)、ステップ302からの処理に戻る。
以上、入力ゲイン制御処理について説明した。
なお、以上の、ステップ302で入力ゲインGを最小ゲインGminに設定するのは、音声認識処理が行われていない期間中に、入力アンプ5の増幅によって入力音声信号が飽和してしまって、当該期間中に騒音振幅分布gb(n)を算出する第1騒音振幅分布検出部11において適正に騒音振幅分布gb(n)を算出できなくなってしまうことを抑制するためである。また、最小ゲインGminは、たとえば、マイク4で歪まずにピックアップ可能な最大の大きさの音声が、入力音声データとして表現可能な最大値に、AD変換器6で変換されることとなる値とする。
Returning to FIG. 3, if the input gain G is set in step 318, the process waits until the speech recognition processing signal Ron output from the speech recognition engine 7 is turned off and the speech recognition process ends (step 314). ), The process returns to step 302.
The input gain control process has been described above.
Note that the reason why the input gain G is set to the minimum gain Gmin in the above step 302 is that the input voice signal is saturated by the amplification of the input amplifier 5 during the period when the voice recognition process is not performed. This is to prevent the noise amplitude distribution gb (n) from being appropriately calculated in the first noise amplitude distribution detecting unit 11 that calculates the noise amplitude distribution gb (n) during the period. The minimum gain Gmin is, for example, a value that allows the AD converter 6 to convert a maximum volume of sound that can be picked up without distortion by the microphone 4 to a maximum value that can be expressed as input sound data. To do.
次に、上述した音声振幅分布検出部14の発話音声sの平均の振幅分布f(n)の算出法、第1騒音振幅分布検出部11の騒音bの振幅分布gb(n)の算出法、第2騒音振幅分布検出部12の騒音bの振幅分布gb(n)の算出法について説明する。
まず、音声振幅分布検出部14の発話音声sの平均の振幅分布f(n)の算出法について説明する。
発声された発話音声sの振幅分布f(s)は、スーパーガウス分布となることが知られており、発話音声sの振幅分布がスーパーガウス分布となると仮定すると、式2によって、発話音声sの振幅分布は表すことができる。
Next, a calculation method of the average amplitude distribution f (n) of the speech s of the speech amplitude distribution detection unit 14 described above, a calculation method of the amplitude distribution gb (n) of the noise b of the first noise amplitude distribution detection unit 11, A method for calculating the amplitude distribution gb (n) of the noise b of the second noise amplitude distribution detector 12 will be described.
First, a method for calculating the average amplitude distribution f (n) of the uttered voice s by the voice amplitude distribution detector 14 will be described.
It is known that the amplitude distribution f (s) of the uttered speech s is a super Gaussian distribution, and assuming that the amplitude distribution of the uttered speech s is a super Gaussian distribution, The amplitude distribution can be represented.
ここで、式2中のα、βは、発話音声sの平均μsと分散σsと、式3の関係を持つ。 Here, α and β in Equation 2 have the relationship of Equation 3 with the average μs and variance σs of the speech s.
また、平均μsと分散σsは、発話音声sのパワー(二乗平均)Psと式4の関係を持つ。 Further, the average μs and the variance σs have the relationship of the power (root mean square) Ps of the uttered voice s and Equation 4.
よって、式2中のα、βと発話音声sのパワーPsとの関係は式5で表すことができる。 Therefore, the relationship between α and β in Expression 2 and the power Ps of the speech voice s can be expressed by Expression 5.
ここで、発声された発話音声sの振幅分布のピークは0付近に現れ、この場合、下記参考文献などに示されているようにαはほぼ1とすることができる。
参考文献:T.Lotter and P.Vary, “Noise reduction by joint maximum a posteriori spectral amplitude and phase estimation with super-gaussian speech modeling",Proc. EUSIPCO-04(Vienna,Austria), pp.1447-60,Sep.2004.
そして、α=1とすると、βとパワーPsとの関係は式6で表すことができ、βが求まれば式1の発話音声sの振幅分布f(s)を算出することができる。
Here, the peak of the amplitude distribution of the uttered voice s appears near 0, and in this case, α can be set to approximately 1 as shown in the following references.
References: T. Lotter and P. Vary, “Noise reduction by joint maximum a posteriori spectral amplitude and phase estimation with super-gaussian speech modeling”, Proc. EUSIPCO-04 (Vienna, Austria), pp. 1447-60, Sep. .2004.
If α = 1, the relationship between β and power Ps can be expressed by Equation 6, and if β is obtained, the amplitude distribution f (s) of the uttered speech s in Equation 1 can be calculated.
そこで、音声振幅分布検出部14は、算出実行期間毎に発話音声sのパワーPseを求め、保存する。ここで、算出実行期間の発話音声sのパワーPseの算出は次のように行う。
すなわち、AD変換器6がAD変換した入力音声データのゲインを、当該入力音声データの生成時に用いた入力アンプ5の入力ゲインGの逆数で表せるゲイン/Gでゲイン調整した入力音声データを対象入力音声データとする。ここで、対象入力音声データは、入力アンプ5で増幅される前の入力音声信号xの値を表すものとなる。
Therefore, the voice amplitude distribution detection unit 14 obtains and stores the power Pse of the uttered voice s for each calculation execution period. Here, the calculation of the power Pse of the speech s during the calculation execution period is performed as follows.
That is, the input audio data gain-adjusted by a gain / G that can be expressed by the reciprocal of the input gain G of the input amplifier 5 used when generating the input audio data is used as the target input. Let it be audio data. Here, the target input audio data represents the value of the input audio signal x before being amplified by the input amplifier 5.
そして、音声振幅分布検出部14は、算出実行期間中、対象入力音声データを求めて保存すると共に、保存しておいた対象入力音声データを用いて、以下のように発話音声sのパワーPseを算出し、保存する。
すなわち、算出実行期間中の、発話音声区間データSonで表される発話音声区間以外の期間には、入力音声信号xに成分として騒音bのみが含まれる時間区間となるので、この時間区間の対象入力音声データのパワーをパワーPbとして算出する。また、入力音声信号xに成分として騒音bと発話音声sとが含まれる発話音声区間の対象入力音声データのパワーをパワーPb+sとして算出する。そして、パワーPb+sからパワーPbを減算することにより発話音声sのパワーPseを算出し、保存する。
Then, the voice amplitude distribution detection unit 14 obtains and stores the target input voice data during the calculation execution period, and uses the saved target input voice data to calculate the power Pse of the uttered voice s as follows. Calculate and save.
That is, during the calculation execution period, the period other than the speech voice section represented by the speech voice section data Son is a time section in which only the noise b is included as a component in the input voice signal x. The power of the input audio data is calculated as power Pb. Further, the power of the target input voice data in the utterance voice section in which noise b and utterance voice s are included as components in the input voice signal x is calculated as power Pb + s. Then, the power Pb of the uttered voice s is calculated and stored by subtracting the power Pb from the power Pb + s.
そして、各回の発話音声sのパワーPseの算出と保存が完了時に、それまでに保存された発話音声sのパワーPseの平均を、式6のパワーPsとしてβを求め、求めたβから、発話音声sの振幅分布f(s)を算出する。そして、振幅分布f(s)を離散化し、発話音声sの平均の振幅分布f(n)とする。 Then, when calculation and storage of the power Pse of each speech s is completed, β is obtained as the power Ps of Equation 6 by using the average power Pse of the speech s stored so far, and the speech is obtained from the obtained β. The amplitude distribution f (s) of the voice s is calculated. Then, the amplitude distribution f (s) is discretized to obtain an average amplitude distribution f (n) of the speech voice s.
次に、第1騒音振幅分布検出部11の騒音bの振幅分布gb(n)の算出法について説明する。
まず、第1騒音振幅分布検出部11の算出実行期間中は、入力音声信号xに成分としてスピーカ出力音aと騒音bとが含まれる。
したがって、入力音声信号xの振幅分布gc(n)は、スピーカ出力音aの振幅分布ga(n)と騒音bの振幅分布gb(n)との、式7、8に示す畳み込み演算によって表すことができる。
Next, a method for calculating the amplitude distribution gb (n) of the noise b of the first noise amplitude distribution detector 11 will be described.
First, during the calculation execution period of the first noise amplitude distribution detection unit 11, the speaker output sound a and the noise b are included as components in the input sound signal x.
Therefore, the amplitude distribution gc (n) of the input audio signal x is expressed by a convolution operation represented by Equations 7 and 8 between the amplitude distribution ga (n) of the speaker output sound a and the amplitude distribution gb (n) of the noise b. Can do.
なお、式8中において、Amaxはスピーカ出力音aの最大値の階級の番号、Bmaxは騒音bの最大値の階級の番号である。
そして、式9のように、騒音bの振幅分布gb(n)を行列表記したWと、行列表記したスピーカ出力音aの振幅分布ga(n)を定める。
In Expression 8, Amax is the number of the maximum value of the speaker output sound a, and Bmax is the number of the maximum value of the noise b.
Then, as shown in Equation 9, W representing the amplitude distribution gb (n) of the noise b and the amplitude distribution ga (n) of the speaker output sound a representing the matrix are determined.
そして、この場合には、式7、8より、式10で示す誤差eの単位時間区間の平均自乗誤差Jを最小とするWが、Wの真値であることが分かる。なお、E[X]は、Xの単位時間区間の平均値を表すものとする。 In this case, it can be seen from Equations 7 and 8 that W that minimizes the mean square error J in the unit time interval of error e shown in Equation 10 is the true value of W. Note that E [X] represents an average value of the unit time interval of X.
そして、平均自乗誤差Jを最小とするWは、平均自乗誤差JをWで偏微分した値が0となるWとして、式11のように求まる。 Then, W that minimizes the mean square error J is obtained as shown in Equation 11, where W is a value obtained by partial differentiation of the mean square error J with W.
そして、平均自乗誤差Jを最小とするWより騒音bの振幅分布gb(n)が定まることとなる。
そこで、第1騒音振幅分布検出部11は、AD変換器6がAD変換した入力音声データのゲインを、当該入力音声データの生成時に用いた入力アンプ5の入力ゲインGの逆数で表せるゲイン/Gでゲイン調整した入力音声データを対象入力音声データとして、第1騒音振幅分布検出部11は、算出実行期間中、対象入力音声データを求めて保存すると共に、DA変換器1に入力するオーディオデータを保存する。
そして、算出実行期間中、単位時間区間毎に、以下のようにして騒音bの振幅分布gb(n)を、保存した対象入力音声データとオーディオデータを用いて算出する。
すなわち、DA変換器1の入力からマイク4の出力までの伝達関数Hを、出力アンプ2の出力ゲインSpGを参照して算出し、DA変換器1に入力するオーディオデータに算出した伝達関数Hを施したオーディオデータの単位時間区間の振幅分布関数をスピーカ出力音aの振幅分布ga(n)として算出する。伝達関数Hは、たとえば、予め求めておいた、出力アンプ2で増幅を行わなかった場合の、DA変換器1の入力からマイク4の出力までの伝達関数に、出力アンプ2の出力ゲインSpGを乗じることにより求める。または、伝達関数Hは、適応フィルタなどを用いて対象入力音声データとオーディオデータからリアルタイムに求めるようにすることもできる。
The amplitude distribution gb (n) of the noise b is determined from W that minimizes the mean square error J.
Accordingly, the first noise amplitude distribution detection unit 11 can represent the gain of the input voice data AD-converted by the AD converter 6 by a gain / G that can be expressed by the reciprocal of the input gain G of the input amplifier 5 used when the input voice data is generated. The first noise amplitude distribution detecting unit 11 obtains and stores the target input voice data during the calculation execution period, and the audio data to be input to the DA converter 1 as the target input voice data. save.
Then, during the calculation execution period, the amplitude distribution gb (n) of the noise b is calculated for each unit time section as follows using the stored target input voice data and audio data.
That is, the transfer function H from the input of the DA converter 1 to the output of the microphone 4 is calculated with reference to the output gain SpG of the output amplifier 2, and the transfer function H calculated for the audio data input to the DA converter 1 is calculated. The amplitude distribution function of the unit time interval of the applied audio data is calculated as the amplitude distribution ga (n) of the speaker output sound a. For example, the transfer function H is obtained by adding the output gain SpG of the output amplifier 2 to the transfer function obtained in advance from the input of the DA converter 1 to the output of the microphone 4 when amplification is not performed by the output amplifier 2. Find by multiplying. Alternatively, the transfer function H can be obtained in real time from target input voice data and audio data using an adaptive filter or the like.
また、単位時間区間の対象入力音声データの振幅分布を入力音声信号xの振幅分布gc(n)として算出する。 Further, the amplitude distribution of the target input voice data in the unit time interval is calculated as the amplitude distribution gc (n) of the input voice signal x.
そして、単位時間中に以上のように算出した振幅分布ga(n)と振幅分布gc(n)より、式11に従って、騒音bの振幅分布gb(n)を算出する。
次に、第2騒音振幅分布検出部12の騒音bの振幅分布gb(n)の算出法について説明する。
AD変換器6がAD変換した入力音声データのゲインを、当該入力音声データの生成時に用いた入力アンプ5の入力ゲインGの逆数で表せるゲイン/Gでゲイン調整した入力音声データを対象入力音声データとして、第2騒音振幅分布検出部12は、算出実行期間中、対象入力音声データを求めて保存すると共に、保存しておいた対象入力音声データを用いて、単位時間区間毎に、以下のように騒音bの振幅分布gb(n)を算出する。
すなわち、第2騒音振幅分布検出部12の算出実行期間中、入力音声信号xには、成分として騒音bのみが含まれる。そこで、第2騒音振幅分布検出部12は、単位時間区間の対象入力音声データの振幅分布をそのまま騒音bの振幅分布gb(n)として算出する。
Then, the amplitude distribution gb (n) of the noise b is calculated from the amplitude distribution ga (n) and the amplitude distribution gc (n) calculated as described above during the unit time according to Equation 11.
Next, a method for calculating the amplitude distribution gb (n) of the noise b of the second noise amplitude distribution detector 12 will be described.
Input audio data whose gain is adjusted by a gain / G that represents the gain of the input audio data AD-converted by the AD converter 6 by the reciprocal of the input gain G of the input amplifier 5 used when generating the input audio data. As described below, the second noise amplitude distribution detector 12 obtains and stores the target input voice data during the calculation execution period, and uses the saved target input voice data for each unit time interval as follows. Then, the amplitude distribution gb (n) of the noise b is calculated.
That is, during the calculation execution period of the second noise amplitude distribution detector 12, the input audio signal x includes only the noise b as a component. Therefore, the second noise amplitude distribution detection unit 12 calculates the amplitude distribution of the target input speech data in the unit time interval as the amplitude distribution gb (n) of the noise b as it is.
以上、本発明の実施形態について説明した。
以上のように本実施形態によれば、第1騒音振幅分布検出部11と第2振幅分布検出部によって、発話音声区間以外の時間区間において、騒音の振幅分布gb(n)の算出を繰り返し実行し、音声認識処理の開始時に、最後に検出された騒音の振幅分布gb(n)、すなわち、直近の時点における騒音の振幅分布gb(n)と、前回以前の音声認識処理実行時の発話音声の平均的な振幅分布f(n)とに基づいて入力音声信号の振幅分布h(n)を推定し、推定した前記入力音声信号の振幅分布h(n)を前記入力アンプ5で増幅した振幅分布hin(n)が、前記音声認識エンジン7に適合したレベルとなるように入力アンプ5の入力ゲインGを設定する。
The embodiment of the present invention has been described above.
As described above, according to the present embodiment, the first noise amplitude distribution detection unit 11 and the second amplitude distribution detection unit repeatedly execute the calculation of the noise amplitude distribution gb (n) in a time section other than the speech voice section. At the start of the speech recognition process, the noise amplitude distribution gb (n) detected last, that is, the noise amplitude distribution gb (n) at the most recent time point, and the utterance speech at the time of the previous speech recognition process execution The amplitude distribution h (n) of the input speech signal is estimated based on the average amplitude distribution f (n) of the input amplitude, and the amplitude obtained by amplifying the estimated amplitude distribution h (n) of the input speech signal by the input amplifier 5 The input gain G of the input amplifier 5 is set so that the distribution h in (n) becomes a level suitable for the voice recognition engine 7.
そして、直近の時点における騒音の振幅分布gb(n)は、現在の騒音状況における騒音の振幅分布gb(n)と近似していることが期待できる。よって、このような音声認識装置によれば、音声認識処理の開始時に、より現在の騒音状況に適した入力ゲインGを入力アンプ5に設定することができるようになる。 The noise amplitude distribution gb (n) at the most recent time can be expected to approximate the noise amplitude distribution gb (n) in the current noise situation. Therefore, according to such a speech recognition apparatus, an input gain G more suitable for the current noise situation can be set in the input amplifier 5 at the start of speech recognition processing.
ところで、以上の実施形態では、振幅分布に基づいて入力アンプ5の入力ゲインGを設定するようにしたが、これは振幅分布に代えて音声のレベルを表す他の特性値Z(Zは、たとえば、振幅のピーク値の分布や最大振幅値や平均振幅等)に基づいて入力アンプ5の入力ゲインGを設定するようにすることもできる。 By the way, in the above embodiment, the input gain G of the input amplifier 5 is set based on the amplitude distribution, but this is another characteristic value Z (Z is an example of the voice level instead of the amplitude distribution). The input gain G of the input amplifier 5 can be set based on the distribution of the peak value of amplitude, the maximum amplitude value, the average amplitude, or the like.
すなわち、この場合には、第1騒音振幅分布検出部11と第2振幅分布検出部とにおいて、騒音の振幅分布gb(n)に代えて騒音の特性値Zを算出し、音声振幅分布検出部14において発話音声の平均的な特性値Zを算出し、入力ゲイン制御部10において最後に算出された騒音の特性値Zと、発話音声の平均的な特性値Zとに基づいて、入力音声信号の特性値Zを推定し、推定した入力音声信号の特性Zに基づいて、特性値Zとする特性値の種類に応じて予め定めた規則に従って、入力アンプ5の入力ゲインGを、入力音声信号を入力ゲインGで増幅してAD変換した入力音声データの振幅レンジが、音声認識エンジン7の規格レンジRに適合するように設定する。 That is, in this case, the first noise amplitude distribution detection unit 11 and the second amplitude distribution detection unit calculate the noise characteristic value Z instead of the noise amplitude distribution gb (n), and the voice amplitude distribution detection unit. 14, the average characteristic value Z of the uttered voice is calculated, and the input voice signal is calculated based on the noise characteristic value Z finally calculated by the input gain control unit 10 and the average characteristic value Z of the uttered voice. The characteristic value Z of the input amplifier 5 is estimated based on the estimated characteristic Z of the input voice signal, and the input gain G of the input amplifier 5 is determined according to a rule predetermined according to the type of characteristic value to be the characteristic value Z. Is set so that the amplitude range of the input voice data obtained by amplifying the signal by the input gain G and AD-converting it matches the standard range R of the voice recognition engine 7.
1…DA変換器、2…出力アンプ、3…スピーカ、4…マイク、5…入力アンプ、6…AD変換器、7…音声認識エンジン、8…トークスイッチ、9…出力ゲイン制御部、10…入力ゲイン制御部、11…第1騒音振幅分布検出部、12…第2騒音振幅分布検出部、13…騒音振幅分布レジスタ、14…音声振幅分布検出部、15…音声振幅分布レジスタ、16…畳込演算器、17…ゲイン制御部。 DESCRIPTION OF SYMBOLS 1 ... DA converter, 2 ... Output amplifier, 3 ... Speaker, 4 ... Microphone, 5 ... Input amplifier, 6 ... AD converter, 7 ... Speech recognition engine, 8 ... Talk switch, 9 ... Output gain control part, 10 ... Input gain control unit, 11 ... first noise amplitude distribution detection unit, 12 ... second noise amplitude distribution detection unit, 13 ... noise amplitude distribution register, 14 ... audio amplitude distribution detection unit, 15 ... audio amplitude distribution register, 16 ... tatami Calculation unit, 17... Gain control unit.
Claims (6)
マイクと、
マイクから出力される入力音声信号を増幅する入力アンプと、
前記入力アンプで増幅された信号を、入力音声データに変換するAD変換器と、
音声認識実行指示に応答して、前記AD変換器の出力する入力音声データを対象とする音声認識処理を行う音声認識エンジンと、
騒音レベル検出部と、
発話音声レベル検出部と、
前記入力アンプのゲインを制御する入力ゲイン制御部とを有し、
前記音声認識エンジンは、前記音声認識処理において、前記入力音声データにユーザの発話音声が含まれる時間区間を発話音声区間として検出すると共に、検出した発話音声区間の入力音声データに含まれる発話音声の内容を識別し、
前記騒音レベル検出部は、前記発話音声区間以外の時間区間、または、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データに基づいて繰り返し算出し、
前記発話音声レベル検出部は、前記音声認識処理の各回において検出された各発話音声区間の前記入力音声信号に含まれる発話音声の平均的なレベルを、前記入力音声データに基づいて算出し、
前記入力ゲイン制御部は、前記音声認識処理の各回の開始時に、前記騒音レベル検出部によって最後に算出された騒音のレベルと、発話音声レベル検出部によって検出されている発話音声の平均的なレベルとより、当該回の前記音声認識処理で検出される発話音声区間の前記入力音声信号のレベルを推定し、推定した前記入力音声信号のレベルを前記入力アンプで増幅したレベルが、前記音声認識エンジンに適合したレベルとなるように、前記入力アンプのゲインを設定することを特徴とする音声認識装置。 A speech recognition device that performs speech recognition,
With a microphone,
An input amplifier that amplifies the input audio signal output from the microphone;
An AD converter that converts the signal amplified by the input amplifier into input audio data;
A speech recognition engine that performs speech recognition processing on input speech data output from the AD converter in response to a speech recognition execution instruction;
A noise level detector;
An utterance voice level detector;
An input gain control unit for controlling the gain of the input amplifier;
In the voice recognition process, the voice recognition engine detects a time interval in which the input voice data includes a user's utterance voice as a utterance voice section, and the utterance voice included in the input voice data in the detected utterance voice section. Identify the content,
The noise level detector repeats a noise level included in the input voice signal based on the input voice data in a time section other than the speech voice section or a time section in which the voice recognition process is not performed. Calculate
The utterance voice level detection unit calculates an average level of the utterance voice included in the input voice signal of each utterance voice section detected in each time of the voice recognition processing based on the input voice data,
The input gain control unit, at the start of each time of the speech recognition processing, the noise level calculated last by the noise level detection unit, and the average level of the utterance speech detected by the utterance speech level detection unit Thus, the level of the input voice signal in the utterance voice section detected in the voice recognition process of the time is estimated, and the level obtained by amplifying the estimated level of the input voice signal with the input amplifier is the voice recognition engine. A speech recognition apparatus, wherein a gain of the input amplifier is set so as to be a level suitable for.
前記入力ゲイン制御部は、前記音声認識処理が行われていない時間区間中、前記入力アンプのゲインを、前記入力音声信号のレベルが取り得る最大レベルを前記入力アンプで増幅したレベルが、前記AD変換器の入力レンジを越えないように予め定めた所定の値に設定することを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1,
The input gain control unit is configured such that, during a time period when the speech recognition process is not performed, the gain of the input amplifier is amplified by the input amplifier so that the maximum level that can be taken by the level of the input speech signal is the AD amplifier. A speech recognition apparatus, wherein a predetermined value is set so as not to exceed an input range of the converter.
オーディオデータが表すオーディオ音を出力するオーディオ機器と、
前記音声認識処理が行われている期間中、前記オーディオ機器のオーディオ音の出力を抑止する出力抑止部とを備え、
前記騒音レベル検出部は、前記音声認識処理を行っていない時間区間において、前記入力音声信号に含まれる騒音のレベルを、前記入力音声データと前記オーディオデータとに基づいて算出することを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1 or 2,
An audio device that outputs the audio sound represented by the audio data;
An output suppression unit that suppresses output of audio sound of the audio device during a period in which the speech recognition process is performed;
The noise level detection unit calculates a noise level included in the input voice signal based on the input voice data and the audio data in a time interval in which the voice recognition process is not performed. Voice recognition device.
前記騒音レベル検出部は、前記騒音のレベルとして騒音の振幅分布を算出し、
前記発話音声レベル検出部は、前記発話音声の平均的なレベルとして、前記発話音声の平均的な振幅分布を算出し、
前記入力ゲイン制御部は、前記入力音声信号のレベルとして、前記入力音声信号の振幅分布を推定することを特徴とする音声認識装置。 The speech recognition device according to claim 1, 2, or 3,
The noise level detector calculates a noise amplitude distribution as the noise level,
The utterance voice level detection unit calculates an average amplitude distribution of the utterance voice as an average level of the utterance voice,
The speech recognition apparatus, wherein the input gain control unit estimates an amplitude distribution of the input speech signal as a level of the input speech signal.
前記入力ゲイン制御部は、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジ以下である場合には、前記推定した入力音声信号の振幅分布が示す振幅の分布範囲の中心の振幅値を前記入力アンプで増幅した後の振幅値が、前記音声認識エンジンの入力レンジの中心の振幅値となるように、前記入力アンプのゲインを設定することを特徴とする音声認識装置。 The speech recognition device according to claim 4,
When the dynamic range of the amplitude distribution range indicated by the amplitude distribution of the estimated input speech signal is equal to or less than the dynamic range of the input range of the speech recognition engine, the input gain control unit may determine the estimated input speech signal. The gain of the input amplifier is adjusted so that the amplitude value after the amplitude value at the center of the amplitude distribution range indicated by the amplitude distribution is amplified by the input amplifier becomes the amplitude value at the center of the input range of the speech recognition engine. A speech recognition apparatus characterized by setting.
前記入力ゲイン制御部は、前記推定した入力音声信号の振幅分布における振幅の分布範囲のダイナミックレンジが、前記音声認識エンジンの入力レンジのダイナミックレンジを越える場合には、前記推定した入力音声信号の振幅分布における振幅の分布範囲のうちの、前記音声認識エンジンの入力レンジのダイナミックレンジと同じダイナミックレンジとなる範囲部分であって、当該範囲部分内の度数の合計が最大となる範囲部分を選定し、選定した範囲部分を前記入力アンプで増幅した後の範囲が、前記音声認識エンジンの入力レンジと一致するように、前記入力アンプのゲインを設定することを特徴とする音声認識装置。 The speech recognition device according to claim 4 or 5,
When the dynamic range of the amplitude distribution range in the estimated amplitude distribution of the input speech signal exceeds the dynamic range of the input range of the speech recognition engine, the input gain control unit determines the amplitude of the estimated input speech signal. of distribution range of the amplitude in the distribution, in the range moiety having the same dynamic range as the dynamic range of the input range of the voice recognition engine, it selects a range that the total amount of power within that range portion becomes maximum, A speech recognition apparatus, wherein a gain of the input amplifier is set so that a range after the selected range portion is amplified by the input amplifier matches an input range of the speech recognition engine.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010159600A JP5457293B2 (en) | 2010-07-14 | 2010-07-14 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010159600A JP5457293B2 (en) | 2010-07-14 | 2010-07-14 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012022127A JP2012022127A (en) | 2012-02-02 |
JP5457293B2 true JP5457293B2 (en) | 2014-04-02 |
Family
ID=45776461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010159600A Expired - Fee Related JP5457293B2 (en) | 2010-07-14 | 2010-07-14 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5457293B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10319393B2 (en) | 2015-09-28 | 2019-06-11 | Alpine Electronics, Inc. | Speech recognition system and gain setting system |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160132574A (en) | 2015-05-11 | 2016-11-21 | 현대자동차주식회사 | Auto gain control module, control method for the same, vehicle including the same, control method for the same |
CN106782591B (en) * | 2016-12-26 | 2021-02-19 | 惠州Tcl移动通信有限公司 | Device and method for improving speech recognition rate under background noise |
JP6283890B1 (en) * | 2017-04-10 | 2018-02-28 | 角元 純一 | Noise spectrum distribution detection method and anti-noise volume sound quality control method |
CN116303473B (en) * | 2023-05-11 | 2024-04-19 | 长鹰恒容电磁科技(成都)有限公司 | Database construction method, device, equipment and readable storage medium |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58190994A (en) * | 1982-05-01 | 1983-11-08 | 日産自動車株式会社 | Voice recognition equipment for vehicle |
JPS6172299A (en) * | 1984-09-17 | 1986-04-14 | 日立電子エンジニアリング株式会社 | Voice recognition equipment |
JPH0816190A (en) * | 1994-06-29 | 1996-01-19 | Sanyo Electric Co Ltd | Voice processor |
JPH11212595A (en) * | 1998-01-23 | 1999-08-06 | Olympus Optical Co Ltd | Voice processor, recording medium recorded with voice recognition program, and recording medium recorded with processing program |
JP2001236090A (en) * | 2000-02-22 | 2001-08-31 | Alpine Electronics Inc | Voice input device |
JP4999267B2 (en) * | 2004-12-14 | 2012-08-15 | アルパイン株式会社 | Voice input device |
-
2010
- 2010-07-14 JP JP2010159600A patent/JP5457293B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10319393B2 (en) | 2015-09-28 | 2019-06-11 | Alpine Electronics, Inc. | Speech recognition system and gain setting system |
Also Published As
Publication number | Publication date |
---|---|
JP2012022127A (en) | 2012-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5457293B2 (en) | Voice recognition device | |
CN102422346B (en) | Audio noise cancelling | |
CN101388216B (en) | Sound processing device, apparatus and method for controlling gain | |
CN101625871B (en) | Noise suppressing apparatus, noise suppressing method and mobile phone | |
JP4767166B2 (en) | Howling suppression device, program, integrated circuit, and howling suppression method | |
JP5183828B2 (en) | Noise suppressor | |
JP4916394B2 (en) | Echo suppression device, echo suppression method, and computer program | |
JP6243536B2 (en) | Echo cancellation | |
JP2021193807A (en) | Signal processing device, teleconferencing device, and signal processing method | |
JP2010220087A (en) | Sound processing apparatus and program | |
JP2962572B2 (en) | Noise removal device | |
JP4510539B2 (en) | Specific speaker voice output device and specific speaker determination program | |
JP5126145B2 (en) | Bandwidth expansion device, method and program, and telephone terminal | |
KR101961341B1 (en) | Signal processing apparatus and method for barge-in speech recognition | |
JP4165059B2 (en) | Active silencer | |
KR102063824B1 (en) | Apparatus and Method for Cancelling Acoustic Feedback in Hearing Aids | |
JP4591685B2 (en) | Double talk state determination method, echo cancellation method, double talk state determination device, echo cancellation device, and program | |
JP2001228893A (en) | Speech-recognizing device | |
KR101607902B1 (en) | Apparatus having complex howling removing process | |
KR102167469B1 (en) | Feedback processing apparatus | |
US20080037451A1 (en) | Neutralization of acoustic echo cancellation in presence of signal clipping | |
JP4999267B2 (en) | Voice input device | |
CN103873981B (en) | Audio adjusting method and acoustic processing device | |
JP4438632B2 (en) | Howling canceller | |
CN119110222A (en) | Audio processing method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5457293 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |