[go: up one dir, main page]

JP6729186B2 - 音声処理プログラム、音声処理方法及び音声処理装置 - Google Patents

音声処理プログラム、音声処理方法及び音声処理装置 Download PDF

Info

Publication number
JP6729186B2
JP6729186B2 JP2016168593A JP2016168593A JP6729186B2 JP 6729186 B2 JP6729186 B2 JP 6729186B2 JP 2016168593 A JP2016168593 A JP 2016168593A JP 2016168593 A JP2016168593 A JP 2016168593A JP 6729186 B2 JP6729186 B2 JP 6729186B2
Authority
JP
Japan
Prior art keywords
frequency spectrum
input
input device
transfer characteristic
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016168593A
Other languages
English (en)
Other versions
JP2018036431A (ja
Inventor
猛 大谷
猛 大谷
太郎 外川
太郎 外川
紗友梨 香村
紗友梨 香村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016168593A priority Critical patent/JP6729186B2/ja
Priority to US15/666,722 priority patent/US10276182B2/en
Priority to EP17184905.2A priority patent/EP3291227B1/en
Publication of JP2018036431A publication Critical patent/JP2018036431A/ja
Application granted granted Critical
Publication of JP6729186B2 publication Critical patent/JP6729186B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3023Estimation of noise, e.g. on error signals
    • G10K2210/30232Transfer functions, e.g. impulse response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3045Multiple acoustic inputs, single acoustic output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は音声処理プログラム、音声処理方法及び音声処理装置に関する。
音声認識や音声分析のニーズが高まり、話者が発した音声を正確に分析する技術が求められている。音声分析の技術の1つにバイナリマスキングという方法がある。バイナリマスキングでは、複数の入力装置で得られる音声それぞれについて周波数解析を行い、周波数成分毎に信号レベルの大きさを比較して、信号レベルが大きい目的音の入力と小さい非目的音(目的音以外の雑音等)の入力の特定を行い、非目的音を除去することにより、目的音の分析を行う。
特開2009−20471号公報
しかしながら、周辺環境が変化することによって、音声の周波数スペクトルに変化が生じて、目的音と非目的音の大小が逆転し、目的音と非目的音の分離精度が低下する場合があり、結果として音声分析を誤ることがある。
一つの側面では、本発明は、音声分析の精度を向上することを目的とする。
一つの実施態様では、第1の入力装置に入力される第1の音信号に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音信号に対応する第2の周波数スペクトルを生成し、第1の入力装置と第2の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、第1の周波数スペクトルと伝達特性から算出される結果に応じて、第2の周波数スペクトルのレベルを抑圧制御する。
一つの側面では、音声の分析の精度を向上することができる。
第1の実施形態に係る音声処理装置の構成例を示す図である。 第1の実施形態に係る音声処理装置の処理フローを示す図である。 抑圧ゲイン算出関数の例を示す図である。 第2の実施形態に係る音声処理装置の構成例を示す図である。 第2の実施形態に係る音声処理装置の処理フローを示す図である。 抑圧ゲイン算出関数の例を示す図である。 重み関数の例を示す図である。 音声処理装置のハードウェア構成例を示す図である。
以下、図面を参照しながら、第1の実施形態に係る音声処理装置100について説明する。
第1の実施形態に係る音声処理装置100は、2つの入力装置から受信した音声信号を周波数解析し、各音声信号に対応する周波数スペクトルを生成する。音声処理装置100は、算出した周波数スペクトルについて周波数毎に信号レベルを比較し、その比較結果に基づいて、音声の入力状態を判定する。即ち、主に一方の装置から音声が入力される状態にあるか、2つの入力装置から音声が入力される状態にあるかを判定する。例えば、入力装置を2人の話者のそれぞれの近くに設置することで、一方の入力装置からの音声の入力に偏った状態である場合には、該当する入力装置側の話者が発話状態であると判断し、2つ入力装置からの音声の入力が同程度である場合には、2人の話者が発話状態であると判断する。なお、複数の話者の音声を1つの入力装置に対応させて受信しても良い。
音声処理装置100は、主に一方の入力装置(ここでは、第1の入力装置とする)からの音声入力状態にあると判定した場合には、一方の入力装置から入力について生成した周波数スペクトル(X1)と、他方の入力装置(ここでは第2の入力装置とする)からの入力について生成した周波数スペクトル(X2)に基づいて、伝達特性(第1の伝達特性(H12=X2*X1−1))を求め、記憶部に記憶する。なお、予め、2つの入力装置間で受信した単一の音源に基づき、装置間の伝達特性を算出し、記憶しておき、記憶した伝達特性に基づいて上述の処理を行っても良い。または、主に他方の入力装置からの音声入力状態にあると判定した場合にも、他方の入力装置から入力について生成した周波数スペクトル(X2)と、一方の入力装置からの入力について生成した周波数スペクトル(X1)に基づいて、伝達特性(第2の伝達特性(H21=X1*X2−1))を求め、記憶部に記憶する。なお、周波数スペクトルに基づいてパワースペクトルを求め、パワースペクトルに基づいて伝達特性を求めることもできるが、依然として周波数スペクトルに基づいて伝達特性を求めているといえる。
その後、音声処理装置100は、2つの入力装置から音声が入力される状態にあると判定した場合には、2つの入力装置の内の第1の入力装置に入力された音声信号に対応する周波数スペクトルと、第2の入力装置に入力された音声信号に対応する周波数スペクトルに記憶部に記憶された伝達特性(H21)を与えた周波数スペクトルとを比較する。音声処理装置100は、周波数スペクトルの比較結果に基づいて、第1の入力装置に入力される音声に対応する周波数スペクトルの抑圧量を算出する。即ち、各周波数について、第1の入力装置に入力された音声信号に対応する周波数スペクトルと、第2の入力装置に入力された音声信号に対応する周波数スペクトルに伝達特性を与えて得られる周波数スペクトルとの比較を周波数毎に行い、差が小さいほど抑圧量を大きくする方向に抑圧量を制御する。
上述の処理を行うことにより、入力装置が配置された周辺環境の影響を含む伝達特性に応じて、音声処理を行うことができる。
図1は第1の実施形態に係る音声処理装置100の構成例を示す図である。
第1の実施形態に係る音声処理装置100は、入力部101、周波数解析部102、状態判別部103、雑音推定部104、算出部105、制御部106、変換部107、出力部108、記憶部109を有する。算出部105は伝達特性算出部105aとゲイン算出部105bを有する。
入力部101は、この例では2つの入力装置(マイクロフォン)から音声を受信する。入力部101は、受信した音声をアナログ/デジタル変換器により音声信号へ変換する。既にアナログ/デジタル変換された信号を受信することとしてもよい。
周波数解析部102は、入力部101でデジタル化した音声信号を音声スペクトルに変換する。周波数解析部102は、入力部101でデジタル化した音声信号を、所定長T(例えば10msec)の長さのフレーム単位に分割する。そして、周波数解析部102は、フレームごとに音声信号を周波数解析する。周波数解析部102は、例えば、短時間離散フーリエ変換(STFT:Short Time Fourier Transform)を行い、各音声信号をスペクトル変換する。ただし、音声信号を周波数に変換する方法は上述の方法に限定されない。また、周波数解析部102は、フレーム毎の周波数スペクトル信号から、周波数毎のパワースペクトルを算出する。
状態判別部103は、2つの入力装置から入力を受け付けた音声信号が、主に一方の装置からの入力される状態であるか、2つの入力装置から入力される状態であるかを判別する。状態判別部103は、例えば、2つの入力装置から受信した周波数スペクトルのそれぞれの音声レベルを周波数毎に比較し、その大小関係に基づいて一方の装置からの入力によるものであるか、2つの入力装置からの入力によるものであるかを判別する。具体的には、全周波数に占める、他の入力装置よりも大きい音声レベルを有する周波数の割合により判別する。音声処理装置100は、算出した割合が、第1の割合より大きい、または、第2の割合(第1の割合>第2の割合)より小さい場合には入力された音声が主に一方の装置からの入力される状態であると判別し、その他の場合(第2の割合以上、第1の割合以下の場合)には、入力された音声が2つの入力装置からの入力によるものであると判別する。
雑音推定部104は、周波数解析部102で算出した周波数スペクトルに含まれる雑音スペクトルの推定を行う。雑音スペクトルとは、音声信号が入力装置に入力されていない場合に、入力装置が検出する信号に対応したスペクトルである。雑音スペクトルを算出する方法として、例えば、スペクトルサブトラクション法がある。ただし、雑音推定部104による雑音スペクトルの算出方法は前述のスペクトルサブトラクション法に限定されない。また、雑音推定部104は、周波数解析部で行った処理と同様の処理を行い、周波数毎の雑音のパワースペクトルを算出する。なお、雑音パワースペクトルは、後述するゲインの算出の際に利用することができる。
算出部105の伝達特性算出部105aは、状態判別部103での判別の結果、一方の装置からの入力状態であると判別された場合に、2つの入力装置から受信した周波数スペクトルの大きさに基づき、伝達特性を算出する。
算出部105のゲイン算出部105bは、入力部101で各入力装置から受信した音声信号のパワースペクトルと、状態判別部103での判別結果と、伝達関数算出部105aで算出した伝達関数とに基づき、各入力装置から入力された音声信号に対応する音声スペクトルに対するゲイン(抑圧のための調整量)を各周波数について算出する。また、ゲイン算出部105bは、平滑化関数を用いて、現在のフレームにおけるゲインと1フレーム前におけるゲインの平滑化を行い、平滑化ゲインを算出する。
制御部106は、入力部101で入力装置から受信した音声信号の周波数スペクトルと、ゲイン算出部105bで算出した平滑化ゲインとに基づき出力スペクトルを算出する。
変換部107は、出力スペクトルを短時間離散フーリエ逆変換し、出力信号に変換する。
出力部108は、変換部107で変換した出力信号を出力する。
記憶部109は、各機能部で算出した情報や処理に関する情報を記憶する。記憶部109は、具体的には、入力装置から入力された音声、入力部101で変換した音声信号、周波数解析部102で解析した周波数スペクトル、パワースペクトル、状態判別部103での判別結果、雑音推定部104で推定した周波数スペクトルやパワースぺクトル、算出部105で算出した伝達特性、ゲイン、平滑化ゲイン、制御部106で算出した出力スペクトル、変換部107で変換した出力信号等、各機能部で処理を行う際に必要な情報を適宜記憶する。
次に、第1の実施形態に係る音声処理装置100の処理フローについて説明する。図2は第1の実施形態に係る音声処理装置100の処理フローを示す図である。
例えば、2個の入力装置が存在し、第1の入力装置から音声信号x(t)、第2の入力装置から音声信号x(t)を受信した場合の処理について説明する。
第1の実施形態に係る音声処理装置100は、入力部101で入力装置から音声信号x(t)、x(t)を受信(ステップS201)した後、周波数解析部102で、音声信号x(t)、x(t)を周波数解析して周波数スペクトルX(f)、X(f)を算出する(ステップS202)。fは周波数を示す。周波数解析の方法は、例えば、周波数解析部102で説明した短時間離散フーリエ変換を用いる。また、音声処理装置100の周波数解析部102は、フレーム毎の周波数スペクトル信号から、周波数毎のパワースペクトルPx1(f)、Px2(f)を算出する。音声スペクトルをパワースペクトルに変換する際の式を(数1)示す。
(数1)
次に、音声処理装置100の状態判別部103は、2つの入力装置から入力を受け付けた音声信号が、主に一方の入力装置からの入力状態であるか、2つの入力装置からの入力状態であるかを判別する(ステップS203)。状態判別部103は、第1の入力装置に入力された音声信号の周波数スペクトルと、第2の入力装置に入力された音声信号の周波数スペクトルの周波数毎の音声レベルを比較し、第1の入力装置に入力された音声スペクトルが第2の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数を特定する。状態判別部103は、比較を行った全周波数に占める、第1の入力装置に入力された音声スペクトルが第2の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数の割合が、第1の割合より大きい場合には第1の入力装置からの入力によるもの(第1の入力装置が活性)であると判別し、第2の割合(第1の割合>第2の割合)より小さい場合には、第2の入力装置からの入力によるもの(第2の入力装置が活性)であると判別する。なお、第1の入力装置に入力された音声スペクトルが第2の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数の割合が、第2の割合以上、第1の割合以下の場合は、2つの入力装置からの入力状態であると判定する。
音声処理装置100の雑音推定部104は、周波数解析部102で解析した音声スペクトルに含まれる雑音スペクトルN(f)、N(f)を例えば、スペクトルサブトラクション法により算出する。また、雑音推定部104は、上述の周波数解析部102で行った周波数スペクトルをパワースペクトルに変換する際と同様の処理を行い、雑音パワースペクトルPN1(f)、PN2(f)を算出する(ステップS204)。雑音スペクトルを雑音パワースペクトルに変換する際の式を(数2)に示す。
(数2)
なお、ここで求めた雑音パワースペクトルは、ゲインの算出の際に利用される。
次に、音声処理装置100の伝達特性算出部105aは、入力部101で受信した音声信号に対応する音声スペクトルと状態判別部103の判別結果と、第1の入力装置と第2の入力装置に入力される音声レベルに基づき、伝達特性の算出を行う(ステップS205)。音声処理装置100の伝達特性算出部105aは、状態判別部103で、入力信号が一方の装置からの入力によるものであると判別した場合に伝達関数を算出する。伝達特性算出部105aは、第1の入力装置から受信した音声信号の周波数スペクトルX(f)の音声レベルが、第2の入力装置から受信した音声信号の周波数スペクトルX(f)の音声レベルに比べ大きい場合に、第1の入力装置から受信した音声信号のパワースペクトルに対する第2の入力装置から受信した音声信号のパワースペクトルの伝達特性H12(t,f)を算出する。伝達特性H12(t,f)を算出する際の式を(数3)に示す。
(数3)
音声処理装置100の伝達特性算出部105aは、伝達特性H12(t,f)を算出した後、フレーム間での伝達特性H12(t,f)の平滑化を行い、平滑化伝達特性を算出する(ステップS206)。平滑化を行うことにより、所定のフレームで急な雑音が発生し、本来の伝達特性に対し大きな変化が生じた場合でもその影響を抑制することができる。伝達特性算出部105aが平滑化伝達特性を算出する際の式を(数4)に示す。
(数4)
一方、状態判別部103での判別の結果、一方の装置からの入力によるものである場合において、第2の入力装置から受信した音声信号の周波数スペクトルが第1の入力装置から受信した音声信号の周波数スペクトルに比べ、音声レベルが大きい場合には、伝達特性算出部105aは、下記の(数5)、(数6)に示す式に従って、第2の入力装置から受信した音声信号のパワースペクトルに対する第1の入力装置から受信した音声信号のパワースペクトルの伝達特性H21(t,f)と平滑化伝達特性を算出する。
(数5)
(数6)
ただし、伝達特性の平滑化は必ずしも行う必要はなく、例えば、フレーム間での音声の大きな変化が発生していない場合には処理を省略しても良い。
続いて、音声処理装置100は、ゲイン算出部105bで抑圧ゲインGn(t,f)の算出を行う(ステップS207)。ゲイン算出部106は、複数の入力装置からの音声の活性の状態に応じて、抑圧ゲインGn(t,f)を算出する。活性の状態を判定する方法は、例えば、状態判別部103で判別した情報に基づき判定する。
第1の入力装置が活性している場合のゲインGn(t,f)の算出式を(数7)に示す。
(数7)
続いて、第2の入力装置が活性している場合のゲインGn(t,f)の算出式を(数8)に示す。
(数8)
音声処理装置100が、活性していない入力装置からの音声に対するゲインを入力信号のパワースペクトルと雑音信号のパワースペクトルの差分とするのは、活性していない入力装置からの音声を雑音信号のレベルまで小さくし、音声処理を行うためである。
音声処理装置100は、状態判別部103での状態判別の結果、2つの入力装置からの入力状態である場合には、ゲイン算出部105bで図3に示すような関数を用い、ゲインを算出する。図3は抑圧ゲイン算出関数の例を示す図である。ただし、図3はあくまで一例であり、他の関数を利用して処理を行っても良い。ゲインGn(t,f)を算出する際の数式を(数9)に示す。
(数9)
以下、図3に示すような関数を利用する理由について説明する。
第1の入力装置に入力された音声スペクトルと、第2の入力装置に入力された音声スペクトルに伝達特性を付加した音声スペクトルとについて、各周波数成分についてのレベル差が小さい場合には、第1の入力装置に入力された音声が、第2の入力装置側から入力された音声に対応している可能性が高い。よって、第1の入力装置に入力された音声スペクトルの抑圧を行う必要があるため、抑圧量を大きくする。一方、スペクトルのレベル差が大きい場合には、第2の入力装置側からではなく、第1の入力装置側から入力された音声である可能性が高いため、抑圧量を小さくする。
続いて、音声処理装置100のゲイン算出部105bは、抑圧ゲインに基づき平滑化ゲインを算出する(ステップS208)。
平滑化ゲインを算出する際の数式を(数10)に示す。
(数10)
音声処理装置100の制御部106は、ゲイン算出部105bで算出した平滑化ゲインを用い、入力装置から入力を受け付けた音声に対応する周波数スペクトルに対する抑圧を行う(ステップS209)。
ゲインを付加し出力スペクトルY(f)、Y(f)を算出する際の数式を(数11)に示す。
(数11)
そして、音声処理装置100の変換部107は、抑圧を行った出力スペクトルY(f)、Y(f)に対し、短時間離散フーリエ逆変換を行い、出力音声信号y(t)、y(t)を算出する(ステップS210)。
音声処理装置100の出力部108は、変換部107で変換した出力音声信号y(t)、y(t)を出力し(ステップS211)、処理を終了する。
続いて、第2の実施形態に係る音声処理装置100について説明する。
第2の実施形態に係る音声処理装置100は、3つの入力装置から音声信号を受信した際の処理を行う。第2の実施形態における音声処理を行う際、複数の装置との伝達特性に基づき算出したゲインの内、大きい値を示すゲインに基づいて音声の抑圧を行うことにより、より正確な音声分析を行うことができる。
図4は第2の実施形態に係る音声処理装置100の構成例を示す図である。
第2の実施形態に係る音声処理装置100は、入力部301、周波数解析部302、状態判別部303、算出部304、制御部305、変換部306、出力部307、記憶部308を有し、算出部304は、伝達特性算出部304aとゲイン算出部304bを有する。入力部301、周波数解析部302、伝達特性算出部304a、制御部305、変換部306、出力部307、記憶部308は、第1の実施形態に係る音声処理装置100の構成における各機能部と同様の処理を行う。
状態判別部303は、第1の実施形態と同様の処理を行い、受信した音声信号が主に1つの装置からの入力状態であるか複数(2つまたは3つ)の装置からの入力状態であるかを判別する。状態判別部303は、いずれかの特定の入力装置に入力された音声スペクトルが他の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数の、比較を行なった全周波数のうちの占める割合が第1の割合より大きい場合には、その特定の入力装置が活性であると判定し、第1の割合より小さい場合には、音声信号が複数の入力装置から入力されたものであると判別する。
ゲイン算出部304bは、第1の実施形態と同様に、状態判別部303で判定した発話状態に応じて、抑圧ゲインの算出を行う。第2の実施形態では3つの入力装置から入力された音声の活性に応じて抑圧ゲインを算出する。また、ゲイン算出部304bは、重みづけ関数を用いてゲインに対し重みづけを行う。
次に、第2の実施形態に係る音声処理装置100の処理フローについて説明する。図5は第2の実施形態に係る音声処理装置100の処理フローを示す図である。
例えば、3個の入力装置が存在し、第1の入力装置から音声信号x(t)、第2の入力装置から音声信号X(f)、第3の入力装置から音声信号X(f)を受信した場合の処理について説明する。
第2の実施形態に係る音声処理装置100は、入力部301で入力装置から音声信号を受信(ステップS401)した後、周波数解析部302で、音声信号x(t)、x(t)、x(t)を周波数解析して周波数スペクトルX(f)、X(f)、X(f)を算出する(ステップS402)。fは周波数を示す。周波数解析の方法は、例えば、周波数解析部302で説明した短時間離散フーリエ変換を用いる。また、音声処理装置100の周波数解析部302は、フレーム毎の周波数スペクトル信号から、周波数毎のパワースペクトルPx1(f)、Px2(f)、Px3(f)を算出する。音声スペクトルをパワースペクトルに変換する際の式を(数12)示す。
(数12)
次に、音声処理装置100の状態判別部303は、各入力装置から受信した音声信号の周波数スペクトルから入力装置に入力された音声が主に一つの装置からの入力によるものであるか複数の装置からの入力によるものであるかを判別する(ステップS403)。
音声処理装置100の伝達特性算出部304aは、第1の入力装置と第2の入力装置と第3の入力装置とに入力される音声の活性の状態と音声レベルに基づき、伝達特性の算出を行い(ステップS404)、算出した伝達特性に基づき伝達特性の平滑化を行う(ステップS405)。伝達特性の算出方法と伝達特性の平滑化の方法は第1の実施形態と同様である。
音声処理装置100のゲイン算出部304bは、状態判別部303で判別した発話状態が、単一話者である場合において、第1の入力装置から受信した音声信号の周波数スペクトルの音声レベルが、第2の入力装置、第3の入力装置から受信した音声信号の周波数スペクトルの音声レベルに比べ大きい場合には、(数13)に示すようにゲインGn(t,f)を設定する(ステップS406)。
(数13)
音声処理装置100のゲイン算出部304bは、状態判別部303で判別した発話状態が単一話者である場合において、第2の入力装置、第3の入力装置から受信した音声信号が活性である場合には、上述の(数13)と同様に、それぞれ(数14)、(数15)に示すようにゲインGn(t,f)を算出する。
(数14)
(数15)
上述の式では、活性していない入力装置からの音声スペクトルに対する抑圧ゲインを一律で15dBとしているが、必ずしも15dBとする必要はなく、周辺環境に応じて設定するようにしても良い。
音声処理装置100のゲイン算出部304bは、状態判別部303で判別した発話状態が複数話者である場合には他の入力装置と間の伝達特性と周波数解析部302で算出したパワースペクトルを用い、図6に示す関数に基づき、抑圧ゲインGn(t,f)を算出する。図6は抑圧ゲイン算出関数の例を示す図である。第1の入力装置、第2の入力装置、第3の入力装置それぞれの抑圧ゲインを算出する際の式を(数16)、(数17)、(数18)に示す。
(数16)
(数17)
(数18)
続いて、ゲイン算出部304bは複数の周波数周波数のゲインを、重み関数に基づいて重みづけする(ステップS407)。重みづけを行う際の式を(数19)に示す。ゲイン算出部304bは、重み関数として、例えば、図7にグラフのような関数を利用して算出する。図7は重み関数の例を示す図である。
(数19)
図7に示す重み関数は、下記の(数20)の条件を満たすものとする。
(数20)
音声処理装置100は、ゲイン算出部304bで算出した重みづけを行った抑制ゲインを用い、制御部305で、複数の入力装置から入力を受け付けた音声に対応する周波数スペクトルに対する抑圧ゲインの付加を行う(ステップS408)。
ゲインを付加し出力スペクトルYn(f)を算出する際の数式を(数21)に示す。
(数21)
そして、音声処理装置100の変換部306は、抑圧を行った出力スペクトルY(f)、Y(f)、Y(f)に対し、短時間離散フーリエ逆変換を行い、出力音声信号y(t)、y(t)、y(t)を算出する(ステップS409)。
音声処理装置100の出力部307は、変換部306で変換した出力音声信号y(t)、y(t)、y(t)を出力し(ステップS410)、処理を終了する。
次に、第1と第2の実施の形態に係る音声処理装置100のハードウェア構成例について説明する。図8は音声処理装置100のハードウェア構成例を示す図である。
図8に示すように、音声処理装置100は、CPU(Central Processing Unit)501、メモリ(主記憶装置)502、補助記憶装置503、I/O装置504、ネットワークインタフェース505がバス506を介して接続されている。
CPU501は、音声処理装置100の全体の動作を制御する演算処理装置であり、第1の実施形態と第2の実施形態における周波数解析部や雑音推定部、算出部等の各機能の処理を制御する。
メモリ502は、音声処理装置100の動作を制御するOS(Operating System)等のプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部であり、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等である。
補助記憶装置503は、例えば、ハードディスク、フラッシュメモリなどの記憶装置であり、CPU501により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。
I/O装置504は、入力装置からの音声の入力、マウス、キーボードなどの入力デバイスを用いた音声処理装置100に対する指示やユーザが設定する値の入力等を受け付ける。また、抑圧を行った周波数スペクトル等の出力を外部の音声出力部に出力したり、記憶部に記憶したデータに基づいて生成した表示画像をディスプレイなどに出力する。
ネットワークインタフェース505は、有線または無線により外部との間で行われる各種データのやりとりの管理を行うインタフェース装置である。
バス506は、上記各装置を互いに接続し、データのやり取りを行う通信経路である。
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、上記第1と第2の実施形態は上記に限定されず、論理的に可能な限りの組合せが可能である。
100 音声処理装置
101、301 入力部
102、302 周波数解析部
103、303 状態判別部
104 雑音推定部
105、304 算出部
105a、304a 伝達特性算出部
105b、304b ゲイン算出部
106、305 制御部
107、306 変換部
108、307 出力部
109、308 記憶部
501 CPU
502 メモリ(主記憶装置)
503 補助記憶装置
504 I/O装置
505 ネットワークインタフェース
506 バス

Claims (9)

  1. 第1の入力装置に入力される第1の音に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音に対応する第2の周波数スペクトルを生成し、
    前記第1の入力装置と前記第2の入力装置とのそれぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性から算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御し、
    前記第1の周波数スペクトルと前記伝達特性とから第3の周波数スペクトルを算出し、
    前記第2の周波数スペクトルと前記第3の周波数スペクトルとの差分が所定の値より大きい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を小さくする、処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  2. 第1の入力装置に入力される第1の音に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音に対応する第2の周波数スペクトルとを生成し、
    前記第1の入力装置と前記第2の入力装置とのそれぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性とから算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御し、
    前記第1の周波数スペクトルと前記伝達特性とから第3の周波数スペクトルを算出し、
    前記第2の周波数スペクトルと前記第3の周波数スペクトルとの差分が所定の値より小さい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を大きくする、処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  3. 複数の周波数の各帯域及び/又は複数の各フレームにおける前記抑圧量を平滑化する処理をコンピュータに実行させることを特徴とする請求項1または2に記載の音声処理プログラム。
  4. 前記平滑化した抑圧量に基づいて前記第2の周波数スペクトルのレベルを抑圧制御する処理をコンピュータに実行させることを特徴とする請求項3に記載の音声処理プログラム。
  5. 前記記憶部に記憶する伝達特性を算出する際、
    前記第1の周波数スペクトルと、前記第2の周波数スペクトルの各周波数成分の振幅を周波数成分毎に比較し、前記第1の周波数スペクトルが前記第2の周波数スペクトルの振幅より大きい周波数成分を特定し、特定した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて算出するかどうかを判定する
    処理をコンピュータに実行させることを特徴とする請求項1乃至4のいずれか一項に記載の音声処理プログラム。
  6. 第1の入力装置に入力される第1の音に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音に対応する第2の周波数スペクトルとを生成し、
    前記第1の入力装置と前記第2の入力装置とのそれぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性とから算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御し、
    前記第1の周波数スペクトルと前記伝達特性とから第3の周波数スペクトルを算出し、
    前記第2の周波数スペクトルと前記第3の周波数スペクトルとの差分が所定の値より大きい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を小さくする、処理をコンピュータが実行することを特徴とする音声処理方法。
  7. 第1の入力装置に入力される第1の音に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音に対応する第2の周波数スペクトルとを生成し、
    前記第1の入力装置と前記第2の入力装置とのそれぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性とから算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御し、
    前記第1の周波数スペクトルと前記伝達特性とから第3の周波数スペクトルを算出し、
    前記第2の周波数スペクトルと前記第3の周波数スペクトルとの差分が所定の値より小さい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を大きくする、処理をコンピュータが実行することを特徴とする音声処理方法。
  8. 第1の入力装置に入力される第1の音に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音に対応する第2の周波数スペクトルとを生成する解析部と、
    前記第1の入力装置と前記第2の入力装置とのそれぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性とから算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御する制御部とを有し、
    前記制御部は、
    前記第1の周波数スペクトルと前記伝達特性とから第3の周波数スペクトルを算出し、
    前記第2の周波数スペクトルと前記第3の周波数スペクトルとの差分が所定の値より大きい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を小さくする、音声処理装置。
  9. 第1の入力装置に入力される第1の音に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音に対応する第2の周波数スペクトルとを生成する解析部と、
    前記第1の入力装置と前記第2の入力装置とのそれぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性とから算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御する制御部とを有し、
    前記制御部は、
    前記第1の周波数スペクトルと前記伝達特性とから第3の周波数スペクトルを算出し、
    前記第2の周波数スペクトルと前記第3の周波数スペクトルとの差分が所定の値より小さい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を大きくする、音声処理装置。

JP2016168593A 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置 Expired - Fee Related JP6729186B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016168593A JP6729186B2 (ja) 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置
US15/666,722 US10276182B2 (en) 2016-08-30 2017-08-02 Sound processing device and non-transitory computer-readable storage medium
EP17184905.2A EP3291227B1 (en) 2016-08-30 2017-08-04 Sound processing device, method of sound processing, sound processing program and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016168593A JP6729186B2 (ja) 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置

Publications (2)

Publication Number Publication Date
JP2018036431A JP2018036431A (ja) 2018-03-08
JP6729186B2 true JP6729186B2 (ja) 2020-07-22

Family

ID=59558274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016168593A Expired - Fee Related JP6729186B2 (ja) 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置

Country Status (3)

Country Link
US (1) US10276182B2 (ja)
EP (1) EP3291227B1 (ja)
JP (1) JP6729186B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10375477B1 (en) * 2018-10-10 2019-08-06 Honda Motor Co., Ltd. System and method for providing a shared audio experience

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3038119A (en) * 1962-06-05 Information signal intelligibility measuring apparatus
JP3074952B2 (ja) * 1992-08-18 2000-08-07 日本電気株式会社 雑音除去装置
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
JP3950930B2 (ja) * 2002-05-10 2007-08-01 財団法人北九州産業学術推進機構 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
JP2004279845A (ja) * 2003-03-17 2004-10-07 Univ Waseda 信号分離方法およびその装置
JP4457221B2 (ja) 2003-08-29 2010-04-28 学校法人早稲田大学 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP4225430B2 (ja) 2005-08-11 2009-02-18 旭化成株式会社 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US8345890B2 (en) * 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
JP4496186B2 (ja) 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
JP4818955B2 (ja) * 2007-02-27 2011-11-16 三菱電機株式会社 雑音除去装置
JP5034734B2 (ja) 2007-07-13 2012-09-26 ヤマハ株式会社 音処理装置およびプログラム
WO2009057329A1 (ja) * 2007-11-01 2009-05-07 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JP2010193213A (ja) * 2009-02-18 2010-09-02 Panasonic Corp 補聴器
JP5293817B2 (ja) * 2009-06-19 2013-09-18 富士通株式会社 音声信号処理装置及び音声信号処理方法

Also Published As

Publication number Publication date
EP3291227A1 (en) 2018-03-07
JP2018036431A (ja) 2018-03-08
US10276182B2 (en) 2019-04-30
EP3291227B1 (en) 2019-09-18
US20180061434A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
JP6134078B1 (ja) ノイズ抑制
JP7498560B2 (ja) システム及び方法
JP6169849B2 (ja) 音響処理装置
JP6107151B2 (ja) 雑音抑圧装置、方法、及びプログラム
US20100296665A1 (en) Noise suppression apparatus and program
CN103098132A (zh) 声源分离装置、声源分离方法、以及程序
JP2017503388A5 (ja)
JP2015529847A (ja) ノイズ削減利得の百分位数フィルタリング
US20200045166A1 (en) Acoustic signal processing device, acoustic signal processing method, and hands-free communication device
CN106157967A (zh) 脉冲噪声抑制
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JP6371167B2 (ja) 残響抑制装置
JP6724905B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
US11205437B1 (en) Acoustic echo cancellation control
JP6640703B2 (ja) 電子装置、方法及びプログラム
JP6729186B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP2018031897A (ja) 利得調整装置、利得調整方法および利得調整プログラム
JP6729187B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
US10706870B2 (en) Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium
US20200388275A1 (en) Voice processing device and voice processing method
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP2010217551A (ja) 音処理装置およびプログラム
JP2005257748A (ja) 収音方法、収音装置、収音プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6729186

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees