JP5443547B2 - Signal processing device - Google Patents
Signal processing device Download PDFInfo
- Publication number
- JP5443547B2 JP5443547B2 JP2012144135A JP2012144135A JP5443547B2 JP 5443547 B2 JP5443547 B2 JP 5443547B2 JP 2012144135 A JP2012144135 A JP 2012144135A JP 2012144135 A JP2012144135 A JP 2012144135A JP 5443547 B2 JP5443547 B2 JP 5443547B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency
- ambient noise
- characteristic information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、音声や音楽・オーディオなどの信号に対して明瞭度を向上させる信号処理装置に関する。 The present invention relates to a signal processing apparatus that improves intelligibility with respect to signals such as voice, music, and audio.
音声や音楽・オーディオなどの信号を再生するときに、音声や音楽・オーディオなどの所望の信号(以降、目的信号と称する)以外の周囲雑音などの影響を受けて目的信号の明瞭度が低下する場合がある。そこで、目的信号の明瞭度を向上させるために、集音した信号に含まれる周囲雑音に応じた信号処理を施す必要がある。従来、このような信号処理方法としては、周囲雑音の音量を用いる手法、周囲雑音の周波数特性を用いる手法(例えば、特許文献1)があった。 When a signal such as voice, music, or audio is reproduced, the clarity of the target signal decreases due to the influence of ambient noise other than a desired signal such as voice, music, or audio (hereinafter referred to as a target signal). There is a case. Therefore, in order to improve the clarity of the target signal, it is necessary to perform signal processing according to the ambient noise included in the collected signal. Conventionally, as such a signal processing method, there are a method using the volume of ambient noise and a method using the frequency characteristics of ambient noise (for example, Patent Document 1).
しかしながら、目的信号と周囲雑音とで、制限される周波数帯域が異なっているために信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりする場合がある。このような場合、従来の信号処理装置では、周囲雑音の音量や周波数特性が高精度に求まらないために音質劣化を招き、明瞭度を向上させることができないという課題があった。 However, there are cases where the frequency band in which the signal component exists is different or the sampling frequency is different because the frequency band to be limited is different between the target signal and the ambient noise. In such a case, the conventional signal processing apparatus has a problem that the volume and frequency characteristics of the ambient noise cannot be obtained with high accuracy, so that the sound quality is deteriorated and the intelligibility cannot be improved.
また、音声信号や音楽・オーディオ信号などの目的信号に対して、エイリアシングを用いたり非線形関数を用いたり線形予測分析を用いたりするような帯域を拡張する従来技術をそのまま用いて、集音した周囲雑音の帯域を拡張しても、周囲雑音の周波数特性を高精度に推定することはできないという課題があった。 In addition, using the conventional technology that extends the band, such as using aliasing, using a nonlinear function, or using linear prediction analysis, for the target signal such as a voice signal, music / audio signal, etc. There is a problem that even if the noise band is expanded, the frequency characteristics of the ambient noise cannot be estimated with high accuracy.
この発明は上記の問題を解決すべくなされたもので、再生する目的信号と周囲雑音とで、制限される周波数帯域が異なっているために信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりする場合でも、明瞭度を向上させることが可能な信号処理装置を提供することを目的とする。 The present invention has been made to solve the above-mentioned problem. The frequency band in which the signal component exists is different because the frequency band to be reproduced differs between the target signal to be reproduced and the ambient noise, or the sampling frequency is different. It is an object of the present invention to provide a signal processing device capable of improving the intelligibility even when they are different.
上記の目的を達成するために、この発明は、第1の周波数範囲に帯域制限された入力信号に対して周波数特性を変化させる信号処理装置であって、集音信号に含まれる周囲雑音を抽出する周囲雑音抽出手段と、前記周囲雑音抽出手段によって抽出された周囲雑音から第2の周波数範囲の周波数特性情報を抽出する情報抽出手段と、前記情報抽出手段によって抽出された周波数特性情報に対して、前記第1の周波数範囲へ周波数特性情報を周波数方向に拡張する周波数特性情報拡張手段と、前記周波数特性情報拡張手段によって得られた周波数特性情報に応じて、前記入力信号の周波数特性を変化させる信号補正手段と、を具備して構成するようにした。 In order to achieve the above object, the present invention provides a signal processing device that changes frequency characteristics for an input signal that is band-limited to a first frequency range, and extracts ambient noise contained in a collected sound signal. An ambient noise extracting means, an information extracting means for extracting frequency characteristic information in a second frequency range from the ambient noise extracted by the ambient noise extracting means, and a frequency characteristic information extracted by the information extracting means. , Frequency characteristic information extending means for extending frequency characteristic information in the frequency direction to the first frequency range, and changing the frequency characteristic of the input signal according to the frequency characteristic information obtained by the frequency characteristic information expanding means. And a signal correcting means.
本発明によれば、再生する目的信号と周囲雑音で、制限される周波数帯域が異なっているために信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりする場合でも、明瞭度を向上させることが可能な信号処理装置を提供することができる。 According to the present invention, even if the target signal to be reproduced and the ambient noise are different from each other in the frequency band in which the signal component exists because the restricted frequency band is different or the sampling frequency is different, It is possible to provide a signal processing device capable of improving the performance.
以下、図面を参照して、この発明の実施形態について説明する。
(第1の実施例)
図1は、この発明の一実施形態である通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、信号処理部3と、ディジタル・アナログ(D/A)変換器4と、スピーカ5と、マイク6と、アナログ・ディジタル(A/D)変換器7と、ダウンサンプリング部8と、エコー抑圧処理部9と、エンコーダ10とを備えている。本実施形態では、再生する目的信号は、受信した入力信号に含まれる遠端話者の音声信号であるとして説明する。
Embodiments of the present invention will be described below with reference to the drawings.
(First embodiment)
FIG. 1 shows a configuration of a communication apparatus according to an embodiment of the present invention. The communication apparatus shown in this figure shows a reception system of a wireless communication apparatus such as a cellular phone, for example, and includes a
無線通信部1は、移動通信網に収容される無線基地局と無線通信し、そしてこの無線基地局および移動通信網を通じて通信相手局との間に通信リンクを確立して通信する。
The
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた時間単位である1フレーム(=20[ms])ごとに復号して、ディジタルの入力信号x[n] (n=0,1,…2N-1)を得て、フレーム単位で信号処理部3に出力する。ただし、この入力信号x[n]は、サンプリング周波数はfs’[Hz]でfs_wb_low[Hz]からfs_wb_high[Hz]までに帯域制限された広帯域の信号である。ここでは、後述する集音信号z[n]のサンプリング周波数fs[Hz]との関係を、fs’=2fsとする。また、サンプリング周波数fs’[Hz]のときの1フレームのデータ長は2Nサンプルする。つまり、N=20[ms]×fs[Hz]÷1000とする。
The
信号処理部3は、後述するエコー抑圧処理部8においてエコー低減された集音信号z[n] (n=0,1,…N-1)に応じて、1フレーム単位で入力信号x[n] (n=0,1,…2N-1)に対して信号補正処理を施し、音量または周波数特性を変化させて、その出力信号をy[n] (n=0,1,…2N-1)としてD/A変換器4とダウンサンプリング部8に出力する。なお、信号処理部3の具体的な構成例については後に詳述する。
The
D/A変換器4は、上記信号補正された出力信号y[n]をアナログ信号y(t)に変換して、スピーカ5に出力する。スピーカ5は、アナログ信号である出力信号y(t)を音響空間へ出力する。
The D /
マイク6は、音を集音してアナログ信号である集音信号z(t)を取得し、A/D変換器7に出力する。このアナログ信号には、近端話者の音声信号と、それ以外の周囲環境に起因するノイズ成分、出力信号y(t)と音響空間に起因するエコー成分などが混在する。例えばノイズ成分としては、電車などが出す騒音、車などのカーノイズ、人ごみでのストリートノイズなどが挙げられる。本実施形態では、通信装置として近端話者の音声信号は通信相手局との間での通信にて所望される必要な信号であるため、近端話者の音声信号以外の成分を周囲雑音として扱う。
The
A/D変換器7は、アナログ信号である集音信号z(t)をディジタル信号に変換して、ディジタルの集音信号z’[n] (n=0,1,…N-1)を得て、Nサンプル単位でエコー抑圧処理部8に出力する。ただし、この集音信号z[n]は、サンプリング周波数はfs[Hz]でfs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限された狭帯域の信号である。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high < fs/2 ≦ fs_wb_high < fs’/2 を満たすものとする。
The A /
ダウンサンプリング部8は、出力信号y[n]をサンプリング周波数fs’[Hz]からfs[Hz]にダウンサンプリングして、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限した信号をy’[n] (n=0,1,…N-1)としてエコー抑圧処理部9に出力する。
The down-
エコー抑圧処理部9は、ダウンサンプリングされた出力信号y’[n] (n=0,1,…N-1)を利用して、集音信号z’[n] (n=0,1,…N-1)に含まれるエコー成分を低減する処理を行い、そのエコー低減された信号をz[n] (n=0,1,…N-1)として、信号処理部3とエンコーダ10に出力する。ここでエコー抑圧処理部9は、例えば、特登4047867号公報や、特開2006−203358号公報や、特開2007−60644号公報などに記載される既存の技術で実施してよい。
The echo
エンコーダ10は、エコー抑圧処理部8においてエコー低減された集音信号z[n] (n=0,1,…N-1)をNサンプルごとに符号化して無線通信部1に出力し、無線通信部1によって送信データとして通信相手局へ送信される。
The
次に、信号処理部3の実施例について説明する。以下の説明では、例えば、fs=8000[Hz]、fs’=16000[Hz]、fs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=7950[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、ここではN=160とする。
Next, an embodiment of the
図2は、信号処理部3の構成例を示すものである。信号処理部3は、周囲雑音推定部31と、周囲雑音情報帯域拡張部32と、信号特性補正部33とを備える。これらは、1つのプロセッサと、図示しない記憶媒体に記録されたソフトウェアによって実現することも可能である。
FIG. 2 shows a configuration example of the
周囲雑音推定部31は、エコー抑圧処理部8においてエコー低減された信号から近端話者の音声信号以外の信号を周囲雑音と推定し、この周囲雑音を特徴付ける特徴量を抽出する。なお、集音信号z[n]が狭帯域の信号であるため、周囲雑音も狭帯域の信号である。そこで、周囲雑音を特徴付ける特徴量を、狭帯域信号情報と称する。狭帯域信号情報は、パワースペクトル、振幅スペクトルや位相スペクトル、PARCOR係数や反射係数、線スペクトル周波数、ケプストラム係数、メルケプストラム係数など、周囲雑音を特徴付ける特徴量であればどのようなものでも構わない。
The ambient
周囲雑音情報帯域拡張部32は、狭帯域信号情報を用いて、周囲雑音を入力信号x[n]の周波数帯域と同じ周波数帯域(広帯域)に拡張した場合にこの周囲雑音を特徴付ける特徴量を推定する。この特徴量を、広帯域信号情報と称する。 The ambient noise information band extension unit 32 uses narrowband signal information to estimate a feature quantity that characterizes the ambient noise when the ambient noise is extended to the same frequency band (broadband) as the frequency band of the input signal x [n]. To do. This feature amount is referred to as broadband signal information.
信号特性補正部33は、周囲雑音情報帯域拡張部32を用いて、目的信号の信号特性を補正する。
The signal
このように、周囲雑音が狭帯域の信号であっても、広帯域に拡張した場合の特徴量を推定することによって、信号特性補正部33での補正処理によって明瞭度を向上させることができる。
As described above, even if the ambient noise is a narrow-band signal, the intelligibility can be improved by the correction process in the signal
以下の説明では、信号処理部3の具体的な構成について説明する。なお、以下の説明では、狭帯域信号情報は周囲雑音のパワースペクトル、広帯域信号情報は周囲雑音を広帯域の信号に拡張した場合のパワー値(広帯域パワー値)であるとして説明する。
In the following description, a specific configuration of the
図3に周囲雑音推定部31の構成例を示す。周囲雑音推定部31は、周波数領域変換部311と、パワー算出部312と、周囲雑音区間判定部313と、周波数スペクトル更新部314とを備える。
FIG. 3 shows a configuration example of the ambient
周囲雑音推定部31は、エコー抑圧処理部8においてエコー低減された集音信号z[n] (n=0,1,…N-1)から近端話者の音声信号以外である周囲雑音を推定してこの信号のパワースペクトル|N[f,w]|2 を抽出して、周囲雑音情報帯域拡張部32へ出力する。
The ambient
周波数領域変換部311は、現在のフレームfの集音信号z[n] (n=0,1,…N-1)が入力される。そして、このフレームの1フレーム前の集音信号から窓掛けによるオーバーラップサンプル数分のサンプルを抽出し、現在のフレームの入力信号と時間方向に結合し、適宜零詰めなどを行って、周波数領域変換に必要なサンプル分の信号を取り出す。次のフレームでの集音信号z[n]のシフト幅と集音信号z[n]のデータ長の比であるオーバーラップは50%である場合が考えられるが、ここでは例として、1フレーム前とのオーバーラップの
サンプル数をL=48として、1フレーム前の集音信号Lサンプルと当該フレームの集音信号z[n]のN=160サンプル分とLサンプル分の零詰めから、2M=256サンプルを用意するとする。この2Mサンプルに対して正弦波窓による窓関数を乗じることで窓掛けを行う。そして、窓掛けを行った2Mサンプルの信号に対して、周波数領域変換を行う。周波数領域への変換は、例えばFFTの次数を2MとしFFTによって行うことができる。なお、周波数領域変換を施す信号に零詰めすることによってデータ長を2のべき乗(2M)にし、周波数領域変換の次数を2のべき乗(2M)にするとしたが、周波数領域変換の次数はこれに限らない。
The frequency
集音信号z[n]が実信号である場合は、周波数領域変換を施して得られた信号から冗長なM=128ビンを除くと、周波数スペクトルZ[f,w] (w=0,1,…M-1)が得られる、これを出力する。ただし、ωは、周波数ビンを表す。なお、実信号のとき冗長なのは本来M-1 (=127)ビンであり、最高域の周波数ビンw=M (=128)を考慮するべきである。しかしながら、ここで周波数領域変換する信号は、帯域制限された音声信号を含むディジタル信号を前提としており、帯域制限によって最高域の周波数ビンw=Mを考慮しなくても音質に影響を及ぼさない。そこで、これ以降説明の簡略化のために、最高域の周波数ビンw=Mを考慮しない記述にする。勿論、最高域の周波数ビンw=Mを考慮しても構わない。その際、最高域の周波数ビンw=Mは、w=M-1と同等に扱うか、単独で扱うようにする。 When the collected signal z [n] is a real signal, the frequency spectrum Z [f, w] (w = 0,1) is obtained by removing redundant M = 128 bins from the signal obtained by performing frequency domain transformation. , ... M-1) is obtained and output. Here, ω represents a frequency bin. It should be noted that it is M-1 (= 127) bins that are redundant for real signals, and the highest frequency bin w = M (= 128) should be considered. However, the signal subjected to frequency domain conversion here is premised on a digital signal including a band-limited audio signal, and does not affect the sound quality even if the highest frequency bin w = M is not considered due to the band limitation. Therefore, in order to simplify the description, the description is made not to consider the highest frequency bin w = M. Of course, the highest frequency bin w = M may be considered. At this time, the highest frequency bin w = M is handled in the same way as w = M−1 or handled independently.
なお、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。また、周波数領域変換は、DFT(Discrete Fourier Transform)や離
散コサイン変換(DCT: Discrete Cosine Transform)などの周波数領域に変換する他の直交変換を代用することも可能である。
Note that the window function used for windowing is not limited to the Hamming window, but is appropriately changed to another symmetric window (Hanning window, Blackman window, sine wave window, etc.) or an asymmetric window used in speech coding processing. You can do it. The frequency domain transform can be replaced with other orthogonal transforms that transform into the frequency domain, such as DFT (Discrete Fourier Transform) and Discrete Cosine Transform (DCT).
パワー算出部312は、周波数領域変換部311から出力された周波数スペクトルZ[f,w] (w=0,1,…M-1)における実部と虚部の2乗和であるパワースペクトル|Z[f,w]|2 (w=0,1,…M-1)を算出して出力する。
The
周囲雑音区間判定部313は、集音信号z[n] (n=0,1,…N-1)と、パワー算出部312から出力されるパワースペクトル|Z[f,w]|2 (w=0,1,…M-1)と、周波数スペクトル更新部314から出力される1フレーム前の各周波数帯域の周囲雑音のパワースペクトル|N[f-1,w]|2 を用いて、集音信号z[n]に周囲雑音が支配的に含まれている区間(周囲雑音区間)であるか、周囲雑音には含まない近端話者の音声信号と周囲雑音が混在している区間(音声区間)のどちらであるかの判別をフレーム毎に行い、フレーム毎に判定結果を表すフレーム判定情報vad[f]を出力する。ここでは、周囲雑音区間であるときフレーム判定情報vad[f]=0とし、音声区間であるときvad[f]=1とする。なおこれ以降、当該成分のみしか存在しないか、あるいは当該成分が他の成分よりも非常に多く含まれる場合(所定の閾値以上含まれる場合)を「支配的に含まれる」と表現する。
The ambient noise
具体的には、集音信号z[n] (n=0,1,…N-1)とパワースペクトル|Z[f,w]|2 と1フレーム前の周囲雑音のパワースペクトル|N[f-1,w]|2 を用いて、複数の特徴量を算出し、フレーム判定情報vad[f]を出力する。ここでは複数の特徴量として、1次自己相関係数Acorr[f,1]、自己相関係数最大値Acorr_max[f]、周波数別SN比総和snr_sum[f]、周波数別SN比分散snr_var[f]を例に挙げて説明する。 Specifically, the collected sound signal z [n] (n = 0, 1,... N-1), the power spectrum | Z [f, w] | 2 and the power spectrum of ambient noise one frame before | N [f −1, w] | 2 , a plurality of feature amounts are calculated, and frame determination information vad [f] is output. Here, as a plurality of feature quantities, primary autocorrelation coefficient Acorr [f, 1], autocorrelation coefficient maximum value Acorr_max [f], SN ratio sum by frequency snr_sum [f], SN ratio variance by frequency snr_var [f ] As an example.
まず、式(1)に示すように、フレーム単位でのパワーで正規化されて絶対値をとったk次自己相関係数Acorr[f,k] (k=1,…N-1)を計算する。
なお、前述した複数の特徴量を全て使わなくてもよいし、他の特徴量を追加して用いてもよい。また、無線通信部1あるいはデコーダ2から出力されるコーデック情報、例えば、無音挿入記述子(SID)や音声検出器(VAD)による音声であるか音声でないかを表す音声検出情報や擬似背景雑音を生成したかどうかの情報などを用いてもよい。
Note that it is not necessary to use all of the plurality of feature amounts described above, or other feature amounts may be added and used. In addition, codec information output from the
周波数スペクトル更新部314は、周囲雑音区間判定部313から出力されるフレーム判定情報vad[f]と、パワー算出部312から出力されるパワースペクトル|Z[f,w]|2 (w=0,1,…M-1)を用いて、各周波数帯域の周囲雑音のパワースペクトルである|N[f,w]|2 (w=0,1,…M-1)を推定して出力する。例えば、フレーム判定情報vad[f]を0として周囲雑音が支配的に含まれる区間(周囲雑音区間)であると判別されたフレームのパワースペクトル|Z[f,w]|2 をフレーム単位で忘却させて平均的なパワースペクトルを算出し、これを各周波数帯域の周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)として出力する。なお、具体的には、各周波数帯域の周囲雑音のパワースペクトル|N[f,w]|2 の算出は、式(8)に示すように1フレーム前の各周波数帯域の周囲雑音のパワースペクトル|N[f-1,w]|2 を用いて再帰的に行う。ただし、式(7)の忘却係数αN[ω]は1以下の係数であって、好ましくは0.75〜0.95程度である。
図4は周囲雑音情報帯域拡張部32の構成例を示す図である。周囲雑音情報帯域拡張部32は、パワー正規化部321と、辞書格納部322と、広帯域パワー算出部323とを備える。
FIG. 4 is a diagram illustrating a configuration example of the ambient noise information band extending unit 32. The ambient noise information band extension unit 32 includes a
周囲雑音情報帯域拡張部32では、狭帯域信号情報から狭帯域特徴量データを算出し、狭帯域信号情報から算出される狭帯域特徴量データと広帯域特徴量データとの対応を事前にモデル化しておき、このモデルと取得した狭帯域特徴量データとの対応を用いて広帯域特徴量データを算出し、広帯域特徴量データから広帯域信号情報を生成する。前述のとおり、ここでは、狭帯域信号情報は周囲雑音のパワースペクトルである。またここでは、広帯域特徴量データと広帯域信号情報は同じであるとし、広帯域信号情報は広帯域パワー値N_wb_level[f]で示される音量である。狭帯域特徴量データと広帯域特徴量データとの対応のモデル化には、GMM(Gaussian mixture model)を利用する手法を用いる。ここでは、狭帯域パワー値Pow_N[f]と周囲雑音の正規化したパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)を次数方向に連結してDnb次の狭帯域特徴量データとして用い、広帯域パワー値N_wb_level[f]をDwb次の広帯域特徴量データとして用いる(Dnb=M+1、Dwb=1)。 The ambient noise information band extension unit 32 calculates narrowband feature data from the narrowband signal information, and models in advance the correspondence between the narrowband feature data calculated from the narrowband signal information and the broadband feature data. Wideband feature data is calculated using the correspondence between this model and the acquired narrowband feature data, and broadband signal information is generated from the wideband feature data. As described above, here, the narrowband signal information is a power spectrum of ambient noise. Here, it is assumed that the broadband feature data and broadband signal information are the same, and the broadband signal information is a volume indicated by a broadband power value N_wb_level [f]. For modeling the correspondence between narrowband feature data and wideband feature data, a technique using a GMM (Gaussian mixture model) is used. Here, the Nnb power value Pow_N [f] and the normalized power spectrum of ambient noise | Nn [f, w] | 2 (w = 0,1,… M-1) are concatenated in the order direction and the Dnb order Are used as the narrowband feature value data, and the wideband power value N_wb_level [f] is used as the Dwb-order wideband feature value data (Dnb = M + 1, Dwb = 1).
まず狭帯域信号情報から狭帯域特徴量データを算出するために、パワー正規化部321には、周囲雑音推定部31から出力される周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)が入力され、この周囲雑音のパワースペクトルを用いて狭帯域特徴量データを算出する。狭帯域特徴量データの1つは、式(8)に基づいて算出される、パワースペクトルの各周波数ビンの総和である狭帯域パワー値Pow_N[f]である。
辞書格納部322における事前の辞書λ1qの学習生成方法について、フローチャートを図5に示し、説明する。
A flowchart of the learning generation method for the
GMMの生成に用いる信号は、入力信号x[n]と同様のサンプリング周波数fs’[Hz]でfs_wb_low[Hz]からfs_wb_high[Hz]までに帯域制限された広帯域な信号を別途事前に集音した信号群である。この信号群は、多数の様々な環境、様々な音量であることが望ましい。以下では、GMMの生成に用いる広帯域信号の信号群をまとめて広帯域信号データwb[n]と表記する。nは時刻(サンプル)を表す。 The signal used to generate the GMM was collected in advance separately from a wideband signal that was band-limited from fs_wb_low [Hz] to fs_wb_high [Hz] at the same sampling frequency fs' [Hz] as the input signal x [n]. It is a signal group. This group of signals is preferably in many different environments and different volumes. Hereinafter, a group of broadband signals used for generating the GMM is collectively referred to as broadband signal data wb [n]. n represents time (sample).
まず、広帯域信号データwb[n]を入力として、ダウンサンプリングフィルタによってサンプリング周波数fs[Hz]にダウンサンプリングし、fs_nb_low[Hz]からfs_nb_high[Hz]までの狭帯域に帯域制限された狭帯域信号データnb[n]を得る(ステップS101)。このようにして、集音信号z[n]と同じように帯域制限された信号群を生成する。なお、図示しないが、上記ダウンサンプリングフィルタや帯域制限処理でアルゴリズム遅延が生じる場合には、狭帯域信号データnb[n]を広帯域信号データwb[n]と同期を合わせる処理を行う。 First, the wideband signal data wb [n] is input, downsampled to the sampling frequency fs [Hz] by the downsampling filter, and narrowband signal data band-limited to a narrow band from fs_nb_low [Hz] to fs_nb_high [Hz] nb [n] is obtained (step S101). In this manner, a band-limited signal group is generated in the same manner as the collected sound signal z [n]. Although not shown, when an algorithm delay occurs in the downsampling filter or the band limiting process, a process for synchronizing the narrowband signal data nb [n] with the wideband signal data wb [n] is performed.
次に、上記狭帯域信号データnb[n]からフレームf単位で狭帯域特徴量データPnb[f,d](d=1,…,Dnb)を抽出する(ステップS102)。狭帯域特徴量データPnd[f,d]は、所定の次数の狭帯域信号情報を表す特徴量データである。ステップS102ではまず、狭帯域信号データnb[n]からフレーム毎に前述の周波数領域変換部311における処理と同様に周波数領域変換処理を行い、M次の狭帯域信号データnb[n]のパワースペクトルを得る(ステップS1021)。次に、前述のパワー正規化部321における処理と同様の処理によって、狭帯域信号データnb[n]からフレーム毎にパワー算出を行い、1次のパワー値を得る(ステップS1022)。そして、これらのパワースペクトルとパワー値からM次の狭帯域信号データnb[n]の正規化されたパワースペクトルを得る(ステップS1023)。そして、M次の正規化されたパワースペクトルと1次のパワー値をフレーム単位で次数方向(次元方向)に連結して、次数Dnb(=M+1)の狭帯域特徴量データPnb[f,d](d=1,…,Dnb)を生成する(ステップS1024)。
Next, narrowband feature data Pnb [f, d] (d = 1,..., Dnb) is extracted from the narrowband signal data nb [n] in units of frame f (step S102). The narrowband feature data Pnd [f, d] is feature data representing narrowband signal information of a predetermined order. In step S102, first, frequency domain conversion processing is performed for each frame from the narrowband signal data nb [n] in the same manner as the processing in the frequency
一方、上記に並行して、広帯域信号データwb[n]からフレームf単位で広帯域特徴量データPwb[f,d](d=1,…,Dwb)を抽出する(ステップS103)。広帯域特徴量データPwb[f,d]は、所定の次数の広帯域信号情報を表す特徴量データである。ステップS103ではまず、広帯域信号データwb[n]からフレーム毎に前述の周波数領域変換部311における処理のFFT点数を倍の4M点にして、同様に周波数領域変換処理を行い、2M次の広帯域信号データwb[n]のパワースペクトルを得る(ステップS1031)。次に、前述のパワー正規化部321における処理と同様の処理によって、広帯域信号データwb[n]からフレーム毎にパワー算出を行って1次のパワー値を得る。このパワー値を次数Dwb(=1)の広帯域特徴量データPwb[f,d]とする(ステップS1032)。
On the other hand, in parallel with the above, broadband feature data Pwb [f, d] (d = 1,..., Dwb) is extracted from the broadband signal data wb [n] in units of frame f (step S103). The broadband feature data Pwb [f, d] is feature data representing broadband signal information of a predetermined order. In step S103, first, the frequency domain conversion processing is similarly performed by setting the FFT point of the processing in the frequency
次に、狭帯域特徴量データPnb[f,d](d=1,…,Dnb)と広帯域特徴量データPwb[f,d](d=1,…,Dwb)の時間的に同期が取れた2つの特徴量データをフレーム単位で次数方向(次元方向)に連結して、次数Dnb+Dwbの連結特徴量データP[f,d](d=1,…,Dnb+Dwb)を生成する(ステップS104)。 Next, the narrowband feature data Pnb [f, d] (d = 1, ..., Dnb) and the broadband feature data Pwb [f, d] (d = 1, ..., Dwb) are synchronized in time. The two feature quantity data are linked in the order direction (dimension direction) in units of frames to generate the connected feature quantity data P [f, d] (d = 1,..., Dnb + Dwb) of the order Dnb + Dwb. (Step S104).
そして、連結特徴量データP[f,d]から混合数Q=1の初期GMMを生成し、各GMMの平均ベクトルをわずかにずらして別の混合分布を生成することで混合数Qを2倍に増やす処理と、連結特徴量データP[f,d]を用いてEMアルゴリズムにより収束するまでGMMの尤度最大化学習を行う処理とを交互に繰り返し行い、混合数Q(ここではQ=64)のGMM λ1q={wq,μq,Σq}(q=1,…,Q)を生成する(ステップS105)。EMアルゴリズムについては、D.A.Reynols and R.C.Rose,“Robust text-independent speaker identification using Gaussian mixture models”,IEEE Trans. Speech and Audio Processing, Vol.3, no.1, pp.72-83, Jan.1995. などの文献に詳細な記述がある。
図4の説明に戻る。広帯域パワー算出部323には、パワー正規化部321から出力された狭帯域パワー値Pow_N[f]と周囲雑音の正規化したDnb次のパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)が連結されて、狭帯域特徴量データPn_nb[f](d=1,…,Dnb)として入力される。また、広帯域パワー算出部323は、辞書格納部322からGMMの辞書λ1q={wi,μq,Σq}(q=1,…,Q)を読み出して、最小平均2乗誤差(MMSE:Minimam Mean Square Error)推定に従って、式(10)に示すように、複数の正規分布モデルによるソフトクラスタリングと連続的な線形回帰によって、周波数帯域が拡張された広帯域に対応する特徴量データへの変換を行い、狭帯域特徴量データPn_nb[f]から広帯域特徴量データである広帯域パワー値N_wb_level[f]を算出して出力する。式(10)は、次元(d=1,…,Dnb+Dwb)方向のベクトルとして記載している。また、平均ベクトルμq(d=1,…,Dnb+Dwb)は次元方向で、μq N(d=1,…,Dnb)とμq W(d=Dnb,…,Dnb+Dwb)に分割し、(Dn+Dw)×(Dn+Dw)行列である共分散行列Σqも以下のように、Dn×Dn行列であるΣq NNとDn×Dw行列であるΣq NWとDw×Dn行列であるΣq WNとDw×Dw行列であるΣq WWとに分割する。
Returning to the description of FIG. The broadband
図6に信号特性補正部33の構成例を示す。信号特性補正部33は、周波数領域変換部331と、補正度合決定部332と、補正処理部333と、時間領域変換部334とを備える。信号特性補正部33には、入力信号x[n] (n=0,1,…2N-1)と広帯域パワー値N_wb_level[f]が入力され、入力信号x[n]が集音信号に含まれる周囲雑音に埋もれてしまわないよう明瞭化する信号補正処理を行い、その補正後の出力信号y[n] (n=0,1,…2N-1)を出力する。
FIG. 6 shows a configuration example of the signal
周波数領域変換部331には、周波数領域変換部311における集音信号z[n] (n=0,1,…N-1)の代わりに入力信号x[n] (n=0,1,…2N-1)が入力される。周波数領域変換部331は、周波数領域変換部311と同様の処理によって、入力信号x[n]の周波数スペクトルX[f,w]を出力する。例えば、周波数領域変換部331は、1フレーム前とのオーバーラップのサンプル数をL=96とし、1フレーム前の入力信号Lサンプルと当該フレームの入力信号x[n]の2N=320サンプル分とLサンプル分の零詰めから、4M=512サンプルを用意する。そして、この4Mサンプルに対して正弦波窓による窓関数を乗じることで窓掛けを行った信号に対して、FFTの次数を4MとしてFFTによる周波数領域変換を行う。
The
補正度合決定部332には、周囲雑音情報帯域拡張部32から出力された広帯域パワー値N_wb_level[f]を入力される。そして、式(11)で補正ゲインG[f,w] (w=0,1,…2M-1)を算出して出力する。
補正処理部333には、入力信号x[n]の周波数スペクトルX[f,w] (w=0,1,…2M-1)と補正度合決定部332から出力された補正ゲインG[f,w] (w=0,1,…2M-1)が入力される。そして、式(12)によって入力信号x[n]の周波数スペクトルX[f,w]を補正し、その補正結果である出力信号y[n]の周波数スペクトルY[f,w] (w=0,1,…2M-1)を出力する。
以上のように、再生される入力信号と集音信号で、信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりしていても、集音信号の音量について入力信号の周波数帯域を加味して拡張し推定することで、集音信号の音量が高精度に求まり、入力信号の明瞭度を向上させることができる。 As described above, the frequency band of the input signal with respect to the volume of the collected signal, even if the input signal to be reproduced and the collected signal have different frequency bands in which signal components exist or the sampling frequencies are different. Is expanded and estimated in consideration of the above, the volume of the collected sound signal can be obtained with high accuracy, and the clarity of the input signal can be improved.
なお、上述の説明では、本発明を通信装置に適用した場合について説明したが、図7(a)に示すように、ディジタルオーディオプレイヤに本発明を適用することも可能である。このディジタルオーディオプレイヤは、フラッシュメモリやHDD(Hard Disk Drive)を用いた記憶部11を備え、この記憶部11から読み出した音楽・オーディオデータをデコーダ2が復号する。このとき復号して再生したい所望の信号である目的信号は音楽・オーディオ信号である。このディジタルオーディオプレイヤのマイク6で集音される集音信号z(t)は、近端話者の音声や周囲環境に起因するノイズ成分、出力信号y(t)と音響空間に起因するエコー成分などで構成され、音楽・オーディオ信号は含まれない。この場合は、通信装置と異なって近端話者の音声は不要であるため、近端話者の音声を含んだこれら全ての成分を周囲雑音として取り扱う。
In the above description, the case where the present invention is applied to a communication apparatus has been described. However, the present invention can also be applied to a digital audio player as shown in FIG. The digital audio player includes a
また、図7(b)に示すように、本発明を通信装置に適用して、音声帯域拡張通話装置に適用することも可能である。この音声帯域拡張通話装置は、デコーダ2Aを備え、デコーダ2Aと信号処理部3の間に信号帯域拡張処理部12を備えた構成である。そして、この場合の信号処理部3は、帯域が拡張された入力信号x’[n]に対して前述の処理をする。
Further, as shown in FIG. 7B, the present invention can be applied to a communication device and applied to a voice band extended call device. This voice band extended communication apparatus includes a
なお、信号帯域拡張処理部12で行われる処理は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限された狭帯域の入力信号をfs_wb_low[Hz]からfs_wb_high[Hz]までの広帯域の信号に帯域を拡張する処理であって、例えば、特登3189614号公報や特登3243174号公報や特開平9−55778号公報などに記載される既存の技術で実施してよい。
Note that the processing performed by the signal band
(信号処理部の変形例1)
次に、信号処理部にて用いる狭帯域信号情報は周囲雑音のパワースペクトル、広帯域信号情報は周囲雑音を広帯域の信号に拡張した場合のマスキング閾値(広帯域マスキング閾値)である場合を例にして説明する。
(
Next, the narrowband signal information used in the signal processing unit is described as an example of the power spectrum of ambient noise, and the broadband signal information is a masking threshold (wideband masking threshold) when the ambient noise is expanded to a broadband signal. To do.
図8は、その構成を示すものである。信号処理部30は、信号処理部3で用いていた周囲雑音情報帯域拡張部32および信号特性補正部33に代わって、周囲雑音情報帯域拡張部34と、信号特性補正部35とを備えて構成される。
FIG. 8 shows the configuration. The
図9に周囲雑音情報帯域拡張部34の構成例を示す。周囲雑音情報帯域拡張部34は、パワー正規化部321と、辞書格納部342と、広帯域パワースペクトル算出部343と、広帯域マスキング閾値算出部344と、パワー制御部345とを備える。
FIG. 9 shows a configuration example of the ambient noise information
周囲雑音情報帯域拡張部34は、周囲雑音情報帯域拡張部32と同様に、周囲雑音のパワースペクトルを入力として、入力信号x[n]には存在して集音信号z[n]には存在しない周波数帯域成分を含めた情報(広帯域信号情報)を生成する。つまり、周囲雑音情報帯域拡張部34では、狭帯域信号情報から狭帯域特徴量データを算出し、狭帯域信号情報から算出される狭帯域特徴量データと広帯域特徴量データとの対応を事前にモデル化しておき、このモデルと取得した狭帯域特徴量データとの対応を用いて広帯域特徴量データを算出し、広帯域特徴量データから広帯域信号情報を生成する。ただし、周囲雑音情報帯域拡張部34では、狭帯域特徴量データと広帯域特徴量データとの対応のモデル化に、ベクトル量子化によるコードブックを利用する手法を用いる。ここでは、周囲雑音の正規化したパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)をDnb次の狭帯域特徴量データとして用い、周囲雑音の正規化した広帯域のパワースペクトル|Nw[f,w]|2 (w=0,1,…2M-1)をDwb次の広帯域特徴量データとして用いる(Dnb=M、Dwb=2M)。具体的には、周囲雑音情報帯域拡張部34は、周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)を入力として、周囲雑音のパワースペクトル|N[f,w]|2について入力信号x[n]には存在して集音信号z[n]には存在しない周波数帯域成分のパワースペクトルを周波数帯域拡張によって生成して、その帯域拡張されたパワースペクトルに対してマスキング閾値を求め、その結果である広帯域マスキング閾値N_wb_th[f,w] (w=0,1,…2M-1)を出力する。
Similar to the ambient noise information band extension unit 32, the ambient noise information
辞書格納部342は、Dnb次の狭帯域特徴量データとDwb次の広帯域特徴量データとの対応をモデル化して事前に学習されたサイズQ(ここではQ=64)のコードブックの辞書λ2q={μxq,μyq}(q=1,…,Q)を格納している。なお、μxqはq番目のコードブックにおける狭帯域特徴量データのセントロイドベクトル、μyqはq番目のコードブックにおける広帯域特徴量データのセントロイドベクトルを表している。なお、コードブックのコードベクトルの次数は、狭帯域特徴量データのセントロイドベクトルμxqと広帯域特徴量データのセントロイドベクトルμyqの成分の和であるDnb+Dwbである。
The
辞書格納部342における事前の辞書λ2qの学習生成方法について、フローチャートを図10に示し、説明する。以下の説明では、前述の辞書λ1qの学習生成方法と同じ処理については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
A method of learning and generating the prior dictionary λ2 q in the
コードブックの辞書生成に用いる信号は、入力信号x[n]と同様でサンプリング周波数fs’[Hz]でfs_wb_low[Hz]からfs_wb_high[Hz]までに帯域制限された広帯域な信号を別途事前に集音した信号群である。この信号群は、多数の様々な環境、様々な音量であることが望ましい。以下では、コードブックの辞書生成に用いる広帯域信号の信号群をまとめて広帯域信号データwb[n]と表記する。また、nは時刻(サンプル)を表す。 The signal used to generate the codebook dictionary is the same as the input signal x [n], and a wideband signal that is band-limited from fs_wb_low [Hz] to fs_wb_high [Hz] at the sampling frequency fs' [Hz] is separately collected beforehand. It is a group of signals that sounded. This group of signals is preferably in many different environments and different volumes. Hereinafter, a group of wideband signals used for codebook dictionary generation is collectively referred to as wideband signal data wb [n]. N represents time (sample).
まず、広帯域信号データwb[n]を入力として、サンプリング周波数fs[Hz]にダウンサンプリングし狭帯域信号データnb[n]を得る(ステップS101)。そして、狭帯域信号データnb[n]から狭帯域信号情報を表す特徴量データである狭帯域特徴量データPnb[f,d](d=1,…,Dnb)を抽出する(ステップS202)。このステップS202では、狭帯域信号データnb[n]のパワースペクトル(M次)を得て(ステップS1021)、狭帯域信号データnb[n]のパワー値を得て(ステップS1022)、これらのパワースペクトルとパワー値から狭帯域信号データnb[n]の正規化されたパワースペクトルを得て(ステップS1023)、これを次数Dnb(=M)の狭帯域特徴量データPnb[f,d](d=1,…,Dnb)とすること
によって狭帯域特徴量データの抽出を行う。
First, the wideband signal data wb [n] is input and downsampling to the sampling frequency fs [Hz] to obtain narrowband signal data nb [n] (step S101). Then, narrowband feature data Pnb [f, d] (d = 1,..., Dnb), which is feature data representing the narrowband signal information, is extracted from the narrowband signal data nb [n] (step S202). In step S202, the power spectrum (Mth order) of the narrowband signal data nb [n] is obtained (step S1021), and the power value of the narrowband signal data nb [n] is obtained (step S1022). A normalized power spectrum of the narrowband signal data nb [n] is obtained from the spectrum and the power value (step S1023), and this is converted into the narrowband feature data Pnb [f, d] (d of the order Dnb (= M) = 1,..., Dnb), the narrowband feature data is extracted.
一方、広帯域信号データwb[n]から広帯域信号情報を表す特徴量データである広帯域特徴量データPwb[f,d](d=1,…,Dwb)を抽出する(ステップS203)。このステップS203では、広帯域信号データwb[n]のパワースペクトルを得て(ステップS1031)、広帯域信号データwb[n]から広帯域信号データwb[n]のパワー値をフレーム単位で得て(ステップS2032)、これらのパワースペクトルとパワー値から広帯域信号データwb[n]の正規化されたパワースペクトルをフレーム単位で得て(ステップS2033)、これを次数Dwb(=2M)の広帯域特徴量データPwb[f,d](d=1,…,Dwb)とすることによって広帯域特徴量データの抽出を行う。 On the other hand, broadband feature data Pwb [f, d] (d = 1,..., Dwb), which is feature data representing broadband signal information, is extracted from the broadband signal data wb [n] (step S203). In step S203, the power spectrum of the wideband signal data wb [n] is obtained (step S1031), and the power value of the wideband signal data wb [n] is obtained in units of frames from the wideband signal data wb [n] (step S2032). ), A normalized power spectrum of the broadband signal data wb [n] is obtained from the power spectrum and the power value in units of frames (step S2033), and is obtained from the broadband feature data Pwb [of the order Dwb (= 2M) Wideband feature data is extracted by setting f, d] (d = 1,..., Dwb).
次に、狭帯域特徴量データPnb[f,d](d=1,…,Dnb)と広帯域特徴量データPwb[f,d](d=1,…,Dwb)を連結して、次数Dnb+Dwbの連結特徴量データP[f,d](d=1,…,Dnb+Dwb)を生成する(ステップS104)。 Next, the narrowband feature quantity data Pnb [f, d] (d = 1,..., Dnb) and the broadband feature quantity data Pwb [f, d] (d = 1,. + Dwb linked feature data P [f, d] (d = 1,..., Dnb + Dwb) is generated (step S104).
上記連結特徴量データP[f,d]からサイズQ(ここではQ=64)のコードブックの辞書λ2q={μxq,μyq}(q=1,…,Q)をk−meansアルゴリズムやLBGアルゴリズムなどによるクラスタリング手法を用いて生成する(ステップS205)。ステップS205では、まず狭帯域セントロイドベクトルμx1を狭帯域特徴量データの全部の平均とし、広帯域セントロイドベクトルμy1を広帯域特徴量データの全部の平均としてサイズQ=1の初期コードブックを生成する(ステップS2051)。そして、コードブックのサイズQが所定数(ここでは64)に達したかどうかを判定する(ステップS2052)。コードブックのサイズQが所定数に達していなければ、コードブックλ2qの各コードベクトルにおける狭帯域セントロイドベクトルμxqと広帯域セントロイドベクトルμyqをわずかにずらして別のコードベクトルを生成することでコードブックのサイズQを2倍に増やす処理を行う(ステップS2053)。そして、次数Dnb+Dwbの連結特徴量データP[f,d]について、コードブックλ2qの各コードベクトルにおける狭帯域セントロイドベクトルμxqとの所定の距離尺度(例えばユークリッド距離やマハラノビス距離)が最小となるコードベクトルを求めて、連結特徴量データP[f,d]をその該当するコードベクトルに割り当てる。その後、コードブックλ2qのコードベクトルごとに割り当てられた連結特徴量データP[f,d]を用いて、コードベクトルごとに新しい狭帯域セントロイドベクトルμxqと広帯域セントロイドベクトルμyqを求めて、コードブックλ2qを更新する(ステップS2054)。コードブックのサイズQが所定数に達していれば、そのコードブックλ2q={μxq,μyq}(q=1,…,Q)を出力する。 A codebook dictionary λ2 q = {μx q , μy q } (q = 1,..., Q) of a size Q (here, Q = 64) is connected to the k-means algorithm from the connected feature data P [f, d]. Or using a clustering technique such as LBG algorithm (step S205). In step S205, first, a narrow band centroid vector Myux 1 and all of the average narrowband feature data, generates an initial codebook of size Q = 1 wideband centroid vector Myuwai 1 as an average of all the broadband feature data (Step S2051). Then, it is determined whether or not the code book size Q has reached a predetermined number (64 in this case) (step S2052). If the size Q of the codebook has not reached the predetermined number, generating another code vector slightly shifting the narrowband centroid vector Myux q wideband centroid vector Myuwai q in each code vector of the codebook .lambda.2 q In step S2053, the code book size Q is doubled. For the connected feature value data P [f, d] of the order Dnb + Dwb, a predetermined distance scale (for example, Euclidean distance or Mahalanobis distance) from the narrowband centroid vector μx q in each code vector of the code book λ2 q is A minimum code vector is obtained, and the connected feature data P [f, d] is assigned to the corresponding code vector. Then, using the connected feature data P [f, d] assigned to each code vector of the code book λ2 q , a new narrowband centroid vector μx q and wideband centroid vector μy q are obtained for each code vector. The code book λ2 q is updated (step S2054). If the code book size Q reaches a predetermined number, the code book λ2 q = {μx q , μy q } (q = 1,..., Q) is output.
広帯域パワースペクトル算出部343は、パワー正規化部321から出力された周囲雑音の正規化したパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)をDnb次の特徴量データとして入力し、辞書格納部342からコードブックの辞書λ2q={μxq,μyq}(q=1,…,Q)を読み出して、Dnb次の狭帯域特徴量データとDwb次の広帯域特徴量データとの対応から広帯域パワースペクトル|Nw[f,w]|2 (w=0,1,…2M-1)を求める。具体的には、Q個ある狭帯域セントロイドベクトルμxq(q=1,…,Q)から、周囲雑音の正規化したパワースペクトル|Nn[f,w]|2 (w=0,1,…M-1)と所定の距離尺度で一番距離が近いものを求めて、一番距離が近いコードベクトルにおける広帯域セントロイドベクトルμyqを広帯域パワースペクトル|Nw[f,w]|2 (w=0,1,…2M-1)とする。
The broadband power
広帯域マスキング閾値算出部344は、広帯域パワースペクトル算出部343から出力される広帯域パワースペクトル|Nw[f,w]|2 (w=0,1,…2M-1)を入力として、周波数成分ごとに周囲雑音のマスキング閾値である広帯域マスキング閾値N_wb_th1[f,w] (w=0,1,…2M-1)を算出する。
The wideband masking threshold
一般にマスキング閾値は、spreading functionと呼ばれる関数を信号のパワースペクトルに畳み込むことで算出することができる。すなわち、周囲雑音の広帯域マスキング閾値N_wb_th1[f,w] (w=0,1,…2M-1)は、spreading functionを関数sprdngf()として、式(13)の式で算出される。周囲雑音の広帯域パワースペクトル|Nw[f,w]|2が広帯域マスキング閾値N_wb_th1[f,w]以下であるならば、周波数ビンω以外の周波数帯域の周囲雑音の広帯域パワースペクトルによってマスクされる。図11に、横軸を周波数[Hz]、縦軸をパワー[dB]として、屋外など様々な環境で採取した周囲雑音の広帯域マスキング閾値の例を示す。
ここでは、spreading functionを関数sprdngf()として、ISO/IEC13818-7で定義されている方式を用いるとする。spreading functionは、例えばITU-R1387、3GPP TS 26.403といった文献で説明されている他の方式を用いても良い。なお、バーク尺度でなくても、メル尺度、ERB尺度など人間の音の高さの知覚特性や聴覚フィルタから得られた尺度を用いたspreading functionを適宜用いても構わない。 Here, it is assumed that the spreading function is a function sprdngf () and a method defined in ISO / IEC13818-7 is used. For the spreading function, other methods described in the literature such as ITU-R1387 and 3GPP TS 26.403 may be used. Instead of the Bark scale, a spreading function using a human sound pitch perception characteristic such as a Mel scale or an ERB scale or a scale obtained from an auditory filter may be used as appropriate.
パワー制御部345は、パワー正規化321から出力された狭帯域パワー値Pow_N[f]と広帯域マスキング閾値算出部345から出力された広帯域マスキング閾値N_wb_th1[f,w] (w=0,1,…2M-1)を入力として、広帯域マスキング閾値N_wb_th1[f,w]のfs_nb_low[Hz]からfs_nb_high[Hz]におけるパワーを狭帯域パワー値Pow_N[f]と同じになるように、広帯域マスキング閾値N_wb_th1[f,w]を増幅あるいは減衰させることで制御し、このパワー制御されたN_wb_th1[f,w]を広帯域マスキング閾値N_wb_th[f,w]として出力する。
The
このようにして、周囲雑音情報帯域拡張部34では、狭帯域信号情報である周囲雑音のパワースペクトル|N[f,w]|2から、広帯域信号情報である広帯域マスキング閾値N_wb_th[f,w]を求める。
In this manner, the ambient noise information
図12に信号特性補正部35の構成例を示す。信号特性補正部35は、周波数領域変換部331と、パワー算出部352と、マスキング閾値算出部353と、マスキング判定部354と、パワー平滑化部355と、補正度合決定部356と、補正処理部333と、時間領域変換部334とを備える。
FIG. 12 shows a configuration example of the signal
信号特性補正部35は、入力信号x[n] (n=0,1,…2N-1)と広帯域マスキング閾値N_wb_th[f,w]を入力とし、入力信号x[n]が集音信号に含まれる周囲雑音に埋もれてしまわないよう明瞭化する信号補正処理を行い、その補正後の出力信号y[n] (n=0,1,…2N-1)を出力する。
The signal
パワー算出部352は、周波数領域変換部331から出力された入力信号x[n]の周波数スペクトルX[f,w] (w=0,1,…2M-1)における実部と虚部の2乗和であるパワースペクトル|X[f,w]|2 (w=0,1,…2M-1)を算出して出力する。
The
マスキング閾値算出部353は、パワー算出部352から出力された入力信号x[n]のパワースペクトル|X[f,w]|2 (w=0,1,…2M-1)を入力として、spreading functionを関数sprdngf()として、式(14)の式で入力信号x[n]の広帯域マスキング閾値X_th[f,w] (w=0,1,…2M-1)を算出し出力する。広帯域マスキング閾値X_th[f,w]は、入力信号x[n]のパワースペクトル|X[f,w]|2 が入力信号x[n]の広帯域マスキング閾値X_th[f,w]以下であるなら
ば、周波数ビンω以外の周波数帯域の入力信号x[n]のパワースペクトル|X[f,w]|2 によってマスクされることを表す。
パワー平滑化部355は、パワー算出部352から出力されたパワースペクトル|X[f,w]|2 (w=0,1,…2M-1)とマスキング判定部354から出力されたマスキング判定情報X_flag[f,w]とを入力として、パワースペクトル|X[f,w]|2 を式(15)の式による三角窓による移動平均によって平滑化して、平滑化されたパワースペクトル|XS[f,w]|2 を出力する。なお、Kは平滑化を計算する範囲であり、αX[j]は、jが0に近いほど係数が大きくなるようなスムージング係数である。例えば、K=3で、αX[j]は[0.1、0.2、0.4、0.8、0.4、0.2、0.1]とする。
なお、図7(b)に示す音声帯域拡張通話装置に本変形例を適用する場合は、信号帯域拡張処理部12において事前に設定した周波数f_limit(f_limitは500〜1200[Hz]程度で、例えばf_limit=1000[Hz]とする)以下の低い周波数帯域が拡張されるとき、つまりfs_wb_low < fs_nb_lowかつfs_wb_low < f_limitであるときは、信号特性補正部35でf_limit以下の周波数帯域について信号補正処理をしないようにする。低域(f_limit以下の周波数)においては、集音する環境やノイズ成分の種類によって、周囲雑音のバラツキが大きいため、このようにすることで、信号帯域拡張処理部12において拡張した低い周波数帯域での周囲雑音のバラツキによって信号補正処理が不安定になることを防止できる。
When the present modification is applied to the voice band extension communication device shown in FIG. 7B, the frequency f_limit (f_limit is about 500 to 1200 [Hz]) set in advance in the signal band
(信号処理部の変形例2)
本変形例では、図8に示す信号処理部30にて用いる狭帯域信号情報を周囲雑音のパワースペクトルとし、広帯域信号情報を周囲雑音の広帯域パワースペクトル(周囲雑音を広帯域の信号に拡張した場合のパワースペクトル)とした場合を例にして説明する。この場合、周囲雑音情報帯域拡張部34では、狭帯域信号情報である周囲雑音のパワースペクトルを入力として、狭帯域特徴量データとして周囲雑音の正規化されたパワースペクトルを算出し、広帯域特徴量データである周囲雑音の正規化された広帯域パワースペクトルを事前にモデル化された狭帯域特徴量データと広帯域特徴量データとの対応を用いて算出し、この広帯域特徴量データから広帯域信号情報である周囲雑音の広帯域パワースペクトルを生成するようにする。なお、狭帯域特徴量データと広帯域特徴量データとの対応のモデル化には、図5に示すGMMを利用する手法を用いる。これによれば、再生される入力信号と集音信号で、信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりしていても、集音信号の周波数特性であるパワースペクトルについて入力信号の周波数帯域を加味して帯域拡張して推定することで、集音信号の周波数特性が高精度に求まり、入力信号の明瞭度を向上させることができる。
(
In this modification, the narrowband signal information used in the
(信号処理部の変形例3)
次に、信号処理部にて用いる狭帯域信号情報は周囲雑音のパワースペクトル、広帯域信号情報は周囲雑音を広帯域の信号に拡張した場合のマスキング閾値(広帯域マスキング閾値)である場合を例にして説明する。
(
Next, the narrowband signal information used in the signal processing unit is described as an example of the power spectrum of ambient noise, and the broadband signal information is a masking threshold (wideband masking threshold) when the ambient noise is expanded to a broadband signal. To do.
図13は、その構成を示すものである。信号処理部300では、信号処理部30で用いていた周囲雑音情報帯域拡張部34に代わって、周囲雑音情報帯域拡張部36を用いた構成になっている。
FIG. 13 shows the configuration. In the signal processing unit 300, the ambient noise information
図14に周囲雑音情報帯域拡張部36の構成例を示す。周囲雑音情報帯域拡張部36は、パワー正規化部321と、狭帯域マスキング閾値算出部362と、帯域制御部363と、辞書格納部364と、広帯域マスキング閾値算出部365と、閾値補正部366と、パワー制御部345とを備える。
FIG. 14 shows a configuration example of the ambient noise information
周囲雑音情報帯域拡張部36は、周囲雑音情報帯域拡張部34と同様に、集音信号z[n]の周波数帯域成分における情報(狭帯域信号情報)を入力として、入力信号x[n]には存在して集音信号z[n]には存在しない周波数帯域成分を含めた情報(広帯域信号情報)を生成する。つまり、周囲雑音情報帯域拡張部36では、狭帯域信号情報から狭帯域特徴量データを算出し、狭帯域特徴量データと広帯域特徴量データとの対応を事前にモデル化しておき、このモデルと取得した狭帯域特徴量データとの対応を用いて広帯域特徴量データを算出し、広帯域特徴量データから広帯域信号情報を生成する。この際、周囲雑音情報帯域拡張部36では、狭帯域特徴量データと広帯域特徴量データとの対応のモデル化に、ベクトル量子化によるコードブックを利用する手法を用いる。ここでは、周囲雑音の帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)のDnb次の狭帯域特徴量データとして用い、周囲雑音の広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)のDwb次の広帯域特徴量データとして用いる(Dnb=MC、Dwb=2M)。具体的には、周囲雑音情報帯域拡張部36は、周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)を入力として、周囲雑音のマスキング閾値を求め、このマスキング閾値を帯域制限し、帯域制限されたマスキング閾値について入力信号x[n]には存在して集音信号z[n]には存在しない周波数帯域成分を周波数帯域拡張して生成して、この帯域拡張されたマスキング閾値である広帯域マスキング閾値N_wb_th[f,w] (w=0,1,…2M-1)を出力する。
Similarly to the ambient noise information
狭帯域マスキング閾値算出部362は、パワー正規化部321から出力される周囲雑音の正規化したパワースペクトル|Nn[f,w]|2(w=0,1,…M-1)を入力として、周波数成分ごとに周囲雑音のマスキング閾値である狭帯域マスキング閾値N_th1[f,w] (w=0,1,…M-1)を算出する。前述した広帯域マスキング閾値算出部344と同様にして、データ長である2MをMで置き換え、周囲雑音の狭帯域マスキング閾値N_th1[f,w] (w=0,1,…M-1)は、spreading functionを関数sprdngf()として、式(19)の式で算出される。狭帯域マスキング閾値N_th1[f,w]は、周囲雑音の正規化したパワースペクトル|Nn[f,w]|2が狭帯域マスキング閾値N_th1[f,w]以下であるならば、周波数ビンω以外の周波数帯域の周囲雑音の正規化したパワースペクトルによってマスクされることを示す。
図11にも示す通り、低域においては、集音する環境やノイズ成分の種類によって、周囲雑音のマスキング閾値の分散・バラツキが大きいことが分かる。周囲雑音の主要な成分はノイズ成分であるため、狭帯域マスキング閾値N_th1[f,w]も低域においては、分散・バラツキが大きくなる。そこで、狭帯域特徴量データと広帯域特徴量データとの対応のモデル化をベクトル量子化によるコードブックを利用する手法を用いて、広帯域マスキング閾値を高精度に求めるために、分散・バラツキが大きい低域を用いないように帯域制御する。つまり、ここで、帯域制御する下限周波数limit_low[Hz]は、狭帯域マスキング閾値の分散・バラツキが所定の値よりも小さいような周波数帯域の下限に設定することが望ましい。こうすることによって、広帯域マスキング閾値を高精度に求めることができ、入力信号の明瞭度を向上させることができる。 As shown in FIG. 11, in the low frequency range, it can be seen that the dispersion / variation of the masking threshold value of the ambient noise is large depending on the environment in which sound is collected and the type of the noise component. Since the main component of ambient noise is a noise component, the narrowband masking threshold N_th1 [f, w] also has a large variance / variation in the low frequency range. Therefore, in order to obtain the wideband masking threshold with high accuracy by using a code book based on vector quantization to model the correspondence between the narrowband feature data and the wideband feature data, the variance and variation are low. Band control is performed so that no band is used. That is, here, the lower limit frequency limit_low [Hz] for band control is desirably set to the lower limit of the frequency band such that the dispersion / variation of the narrow band masking threshold is smaller than a predetermined value. By doing so, the broadband masking threshold can be obtained with high accuracy, and the clarity of the input signal can be improved.
また、マスキング閾値は、その周波数帯域のパワースペクトルだけではなくて周囲の周波数帯域のパワースペクトルを加味して算出される。そのため、マスキング閾値を求める元々の信号の帯域制限されている周波数帯域付近では、正確にマスキング閾値が算出できない。つまり、帯域制御する上限周波数limit_high[Hz]は、帯域制限を加味してもマスキング閾値が正確に求まる周波数帯域の上限に設定することが望ましい。こうすることによって、広帯域マスキング閾値を高精度に求めることができ、入力信号の明瞭度を向上させることができる。 Further, the masking threshold is calculated not only by considering the power spectrum of the frequency band but also the power spectrum of the surrounding frequency band. Therefore, the masking threshold cannot be accurately calculated in the vicinity of the frequency band where the band of the original signal for obtaining the masking threshold is limited. That is, it is desirable to set the upper limit frequency limit_high [Hz] for band control to the upper limit of the frequency band where the masking threshold can be accurately obtained even if the band limitation is taken into account. By doing so, the broadband masking threshold can be obtained with high accuracy, and the clarity of the input signal can be improved.
辞書格納部364は、Dnb次の狭帯域特徴量データとDwb次の広帯域特徴量データとの対応をモデル化して事前に学習されたサイズQ(ここではQ=64)のコードブックの辞書λ3q={μxq,μyq}(q=1,…,Q)を格納している。なお、μxqはq番目のコードブックにおける狭帯域特徴量データのセントロイドベクトル、μyqはq番目のコードブックにおける広帯域特徴量データのセントロイドベクトルを表している。なお、コードブックのコードベクトルの次数は、狭帯域信号情報のセントロイドベクトルμxqと広帯域信号情報のセントロイドベクトルμyqの成分の和であるDnb+Dwbである。
The
辞書格納部364における事前の辞書λ3qの学習生成方法の一手法について、フローチャートを図15に示し、説明する。以下の説明では、上述した変形例1における辞書λ2qの学習生成方法と同じ処理については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
FIG. 15 shows a flowchart of one method for learning and generating the dictionary λ3 q in advance in the
まず、広帯域信号データwb[n]を入力として、サンプリング周波数fs[Hz]にダウンサンプリングし狭帯域信号データnb[n]を得る(ステップS101)。そして、狭帯域信号データnb[n]から狭帯域信号情報を表す特徴量データである狭帯域特徴量データPnb[f,d](d=1,…,Dnb)を抽出する(ステップS202)。このステップS202では、狭帯域信号データnb[n]のパワースペクトル(M次)を得て(ステップS1021)、狭帯域信号データnb[n]のパワー値を得て(ステップS1022)、これらのパワースペクトルとパワー値から狭帯域信号データnb[n]の正規化されたパワースペクトルを得て(ステップS1023)、式(23)と同様にして狭帯域信号データnb[n]のマスキング閾値を算出する(ステップS3024)。そして、狭帯域信号データnb[n]のマスキング閾値に対して、帯域制御部363での処理と同様に帯域制御する(ステップS3025)。これを次数Dnb(=MC)の狭帯域特徴量データPnb[f,d](d=1,…,Dnb)とすることによって狭帯域特徴量データの抽出を行う。 First, the wideband signal data wb [n] is input and downsampling to the sampling frequency fs [Hz] to obtain narrowband signal data nb [n] (step S101). Then, narrowband feature data Pnb [f, d] (d = 1,..., Dnb), which is feature data representing the narrowband signal information, is extracted from the narrowband signal data nb [n] (step S202). In step S202, the power spectrum (Mth order) of the narrowband signal data nb [n] is obtained (step S1021), and the power value of the narrowband signal data nb [n] is obtained (step S1022). A normalized power spectrum of the narrowband signal data nb [n] is obtained from the spectrum and the power value (step S1023), and a masking threshold value of the narrowband signal data nb [n] is calculated in the same manner as Expression (23). (Step S3024). Then, the bandwidth control is performed on the masking threshold of the narrowband signal data nb [n] in the same manner as the processing in the bandwidth control unit 363 (step S3025). Narrowband feature quantity data is extracted by setting this as narrowband feature quantity data Pnb [f, d] (d = 1,..., Dnb) of order Dnb (= M C ).
一方、広帯域信号データwb[n]から広帯域信号情報を表す特徴量データである広帯域特徴量データPwb[f,d](d=1,…,Dwb)を抽出する(ステップS303)。このステップS303では、広帯域信号データwb[n]のパワースペクトル(2M次)を得て(ステップS1031)、広帯域信号データwb[n]から広帯域信号データwb[n]のパワー値を得て(ステップS2032)、これらのパワースペクトルとパワー値から広帯域信号データwb[n]の正規化されたパワースペクトルをフレーム単位で得て(ステップS2033)、式(23)の次数をMから2Mにして同様にして広帯域信号データwb[n]のマスキング閾値を算出する(ステップS3034)。これを次数Dwb(=2M)の広帯域特徴量データPwb[f,d](d=1,…,Dwb)とすることによって広帯域特徴量データの抽出を行う。 On the other hand, broadband feature data Pwb [f, d] (d = 1,..., Dwb), which is feature data representing broadband signal information, is extracted from the broadband signal data wb [n] (step S303). In step S303, the power spectrum (2M order) of the broadband signal data wb [n] is obtained (step S1031), and the power value of the broadband signal data wb [n] is obtained from the broadband signal data wb [n] (step S1031). In step S2032, the normalized power spectrum of the broadband signal data wb [n] is obtained from the power spectrum and the power value in units of frames (step S2033), and the order of equation (23) is changed from M to 2M in the same manner. Then, the masking threshold value of the wideband signal data wb [n] is calculated (step S3034). Broadband feature value data is extracted by using this as wideband feature value data Pwb [f, d] (d = 1,..., Dwb) of order Dwb (= 2M).
次に、狭帯域特徴量データPnb[f,d](d=1,…,Dnb)と広帯域特徴量データPwb[f,d](d=1,…,Dwb)を連結して、次数Dnb+Dwbの連結特徴量データP[f,d](d=1,…,Dnb+Dwb)を生成する(ステップS104)。 Next, the narrowband feature quantity data Pnb [f, d] (d = 1,..., Dnb) and the broadband feature quantity data Pwb [f, d] (d = 1,. + Dwb linked feature data P [f, d] (d = 1,..., Dnb + Dwb) is generated (step S104).
そして、連結特徴量データP[f,d]からコードブックの各コードベクトルにおける狭帯域セントロイドベクトルμxqと広帯域セントロイドベクトルμyqを求め、サイズQ(ここではQ=64)のコードブックをk−meansアルゴリズムやLBGアルゴリズムなどによるクラスタリング手法を用いて生成する(ステップS205)。コードブックの各コードベクトルにおける広帯域セントロイドベクトルμyqである広帯域信号データwb[n]のマスキング閾値を近似多項式係数で表現して、近似多項式係数を広帯域セントロイドベクトルμ’yqとして辞書に格納して、辞書λ3q={μxq,μ’yq}(q=1,…,Q)を生成する(ステップS307)。近似多項式係数mp(p=0,…,P)とはここでは、縦軸をパワー値X[dB]、横軸を周波数Y[Hz]として、式(20)のようにマスキング閾値を所定の次数(ここではPとし、例えばP=6とする)の多項式で近似した、その多項式の係数のことであり、これ以降そのように呼ぶ。
広帯域マスキング閾値算出部365は、帯域制御部363から出力された帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)をDnb次の特徴量データとして入力し、辞書格納部364からコードブックの辞書λ3q={μxq,μ’yq}(q=1,…,Q)を読み出して、Dnb次の狭帯域特徴量データとDwb次の広帯域特徴量データとの対応から周囲雑音の広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を求める。具体的には、Q個ある狭帯域セントロイドベクトルμxq(q=1,…,Q)から、帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)と所定の距離尺度で一番距離が近いものを求めて、一番距離が近いコードベクトルにおける広帯域セントロイドベクトルμ’yqをそのまま広帯域マスキング閾値の近似多項式係数として設定し、式(20)と同様にして広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を算出する。
The wideband masking threshold calculation unit 365 uses the band-controlled narrowband masking threshold N_th [f, w] (w = 0, 1,... M C −1) output from the
閾値補正部366は、狭帯域マスキング閾値算出部362から出力された周囲雑音の狭帯域マスキング閾値N_th1[f,w] (w=0,1,…M-1)と広帯域マスキング閾値算出部365から出力された周囲雑音の広帯域マスキング閾値N_wb_th1[f,w] (w=0,1,…2M-1)を入力として、狭帯域と広帯域における境界帯域付近での不連続性あるいは微分不連続性を解消するように補正し、その補正された広帯域マスキング閾値N_wb_th2[f,w] (w=0,1,…2M-1)を出力する。図16(a)に、境界帯域fs/2[Hz]前後の周波数において、狭帯域マスキング閾値N_th[f,w]と広帯域マスキング閾値N_wb_th1[f,w]とに不連続性が生じ、それを解消するように補正された広帯域マスキング閾値N_wb_th2[f,w]の例を示す。図16(b)に、境界帯域fs/2[Hz]前後の周波数において、狭帯域マスキング閾値N_th[f,w]と広帯域マスキング閾値N_wb_th1[f,w]とに不連続性と微分不連続性の両方が生じ、それを解消するように補正された広帯域マスキング閾値N_wb_th2[f,w]の例を示す。両図共に、実線は狭帯域マスキング閾値N_th[f,w]を、破線は広帯域マスキング閾値N_wb_th2[f,w]を、太実線は補正された広帯域マスキング閾値N_wb_th2[f,w]における補正箇所を表す。ただし、adjust_low[Hz] < fs/2 < adjust_high[Hz]とする。ここで、adjust_lowは周波数ビンωL−1に対応する周波数以上で周波数ビンωLに対応する周波数未満であり、adjust_highは周波数ビンωHに対応する周波数以上で周波数ビンωH+1に対応する周波数未満であるとする。例えばfs=8000[Hz]であるとき、adjust_low=3600[Hz]、adjust_high=4400[Hz]とする。具体的には、少なくとも境界帯域fs/2[Hz]前後の周波数において不連続あるいは微分不連続が検出された場合に、adjust_low[Hz]以上かつadjust_high[Hz]以下であるような境界帯域
付近について、周波数ビンωL、ωL+1…、ωL+SとωH、ωH−1…、ωH−Sにおける広帯域マスキング閾値N_wb_th1[f,w]を用いて、周波数ビンωL+S+1からωH−S−1までの広帯域マスキング閾値を(2S-1)次関数で模擬し、スプライン補間を行うことで、補正された広帯域マスキング閾値N_wb_th2[f,w]を求める。ここで、狭帯域マスキング閾値N_th1[f,M-1]と広帯域マスキング閾値N_wb_th1[f,M]との中点を通過するように模擬する関数を設定してスプライン補間を行ってもよい。
The threshold correction unit 366 includes the ambient noise narrowband masking threshold N_th1 [f, w] (w = 0, 1,... M−1) output from the narrowband masking
このように閾値補正部366において広帯域マスキング閾値を補正することで、広帯域マスキング閾値における不連続性あるいは微分不連続性が解消され、信号補正においても周波数方向の不連続性が無くなって違和感のない自然な信号補正にすることができ、高い明瞭感を得ることができる。 In this way, by correcting the broadband masking threshold in the threshold correction unit 366, discontinuity or differential discontinuity in the broadband masking threshold is eliminated, and there is no discontinuity in the frequency direction even in signal correction, so that there is no sense of incongruity. Signal correction and high clarity.
以上のように、再生される入力信号と集音信号で、信号成分が存在する周波数帯域が異なっていたり、サンプリング周波数が異なっていたりしていても、集音信号のマスキング閾値について入力信号の周波数帯域を加味して帯域拡張して推定することで、集音信号のマスキング閾値が高精度に求まり、入力信号の明瞭度を向上させることができる。 As described above, even if the input signal to be reproduced and the collected sound signal have different frequency bands in which signal components exist or the sampling frequency differs, the frequency of the input signal with respect to the masking threshold of the collected sound signal By estimating the band by expanding the band in consideration of the band, the masking threshold value of the collected signal can be obtained with high accuracy, and the clarity of the input signal can be improved.
(信号処理部の変形例4)
信号処理部300の辞書格納部364における事前の辞書λ3qの学習生成方法の他の手法について、フローチャートを図17に示し、説明する。ここでは、狭帯域信号データnb[n]を生成しないで広帯域信号データwb[n]のみから辞書λ3qを学習生成する方法について説明する。以下の説明では、上述した変形例2における辞書λ3qの学習生成方法と同じ処理については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
(
FIG. 17 shows a flowchart of another method for learning and generating the prior dictionary λ3 q in the
まず、ステップS303で広帯域信号データwb[n]から広帯域信号情報を表す特徴量データ(ここではマスキング閾値)である広帯域特徴量データPwb[f,d](d=1,…,Dwb)を抽出する。この広帯域特徴量データPwb[f,d](d=1,…,Dwb)のみを用いて、ステップS205でサイズQのコードブックを作成する。そして、コードブックの各コードベクトルにおける広帯域セントロイドベクトルμyqである広帯域信号データwb[n]の広帯域マスキング閾値に対して、帯域制御する下限周波数limit_low[Hz]から帯域制御する上限周波数limit_high[Hz]までの周波数帯域の広帯域マスキング閾値のみを用いるように制御する(ステップS3025)。これにより狭帯域に帯域制御された狭帯域マスキング閾値が求まり、これをコードブックの各コードベクトルにおける狭帯域セントロイドベクトルμxq(q=1,…,Q)とする(ステップS306)。その後、ステップS307で広帯域信号データwb[n]のマスキング閾値の近似多項式係数である広帯域セントロイドベクトルμ’yqと併せて辞書に格納して、辞書λ3q={μxq,μ’yq}を生成する。 First, in step S303, broadband feature amount data Pwb [f, d] (d = 1,..., Dwb) that is feature amount data (here, a masking threshold value) representing broadband signal information is extracted from the broadband signal data wb [n]. To do. A size Q codebook is created in step S205 using only the wideband feature data Pwb [f, d] (d = 1,..., Dwb). Then, the broadband masking threshold value of the wideband signal data wb [n] is a wideband centroid vector Myuwai q in each code vector of the codebook, upper frequency limit_high [Hz for bandwidth control from the lower limit frequency limit_low [Hz] for bandwidth control ] Is controlled so as to use only the wideband masking threshold of the frequency band up to (step S3025). As a result, a narrowband masking threshold whose bandwidth is controlled to be narrowband is obtained, and this is set as a narrowband centroid vector μx q (q = 1,..., Q) in each code vector of the codebook (step S306). After that, in step S307, it is stored in the dictionary together with the broadband centroid vector μ′y q which is an approximate polynomial coefficient of the masking threshold of the broadband signal data wb [n], and the dictionary λ3 q = {μx q , μ′y q } Is generated.
狭帯域特徴量データを併用してクラスタリングする図15における手法では、狭帯域特徴量データに狭帯域と広帯域における境界帯域付近で誤差を含む。このように、広帯域特徴量データのみを用いてクラスタリングして、広帯域セントロイドベクトルを帯域制限して狭帯域セントロイドベクトルを求めることで、理想的なデータである広帯域特徴量データのみを用いてクラスタリングするため、図15における手法よりも、高精度にクラスタリングを行うことができる。 In the method in FIG. 15 in which clustering is performed using narrowband feature data together, the narrowband feature data includes an error near the boundary band between the narrowband and the wideband. In this way, clustering is performed using only broadband feature value data, and by performing band limitation on the broadband centroid vector to obtain a narrowband centroid vector, clustering is performed using only broadband feature value data that is ideal data. Therefore, clustering can be performed with higher accuracy than the method in FIG.
(信号処理部の変形例5)
信号処理部300の辞書格納部364における事前の辞書λ3qの学習生成方法の他の手法について、フローチャートを図18に示し、説明する。以下の説明では、上述した変形例2における辞書λ3qの学習生成方法と同じ処理については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
(Modification 5 of the signal processing unit)
FIG. 18 shows a flowchart of another method for learning and generating the dictionary λ3 q in advance in the
ステップS205でサイズQのコードブックを作成した後、コードブックの各コードベクトルにおける狭帯域セントロイドベクトルμxqである狭帯域信号データnb[n]のマスキング閾値を式(20)のように近似多項式で表現して、近似多項式係数を狭帯域セントロイドベクトルμ’xq(q=1,…,Q)とする(ステップS306A)。その後、ステップS307で広帯域信号データwb[n]のマスキング閾値の近似多項式係数である広帯域セントロイドベクトルμ’yqと併せて辞書に格納して、辞書λ3q={μ’xq,μ’yq}を生成する。 After creating the codebook size Q in step S205, the approximate polynomial as in equation (20) a masking threshold of the narrowband signal data nb [n] is a narrowband centroid vector Myux q in each code vector of the codebook The approximate polynomial coefficient is defined as a narrowband centroid vector μ′x q (q = 1,..., Q) (step S306A). Thereafter, in step S307, the broadband centroid vector μ′y q , which is an approximate polynomial coefficient of the masking threshold of the broadband signal data wb [n], is stored in the dictionary, and the dictionary λ3 q = {μ′x q , μ ′. y q } is generated.
一方で、この手法においては、広帯域マスキング閾値算出部365では、帯域制御部363から出力された帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)をDnb次の特徴量データとして入力し、辞書格納部364からコードブックの辞書λ3q={μ’xq,μ’yq}(q=1,…,Q)を読み出して、Dnb次の狭帯域特徴量データとDwb次の広帯域特徴量データとの対応から周囲雑音の広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を求めるようにする。具体的には、Q個ある狭帯域セントロイドベクトルμ’xq(q=1,…,Q)の近似多項式から、帯域制御された狭帯域マスキング閾値N_th[f,w] (w=0,1,…MC-1)と所定の距離尺度で一番距離が近いものを近似多項式に代入していくことで求めて、一番距離が近いコードベクトルにおける広帯域セントロイドベクトルμ’yqをそのまま広帯域マスキング閾値の近似多項式係数として設定し、式(20)と同様にして広帯域マスキング閾値N_wb_th1[f,w](w=0,1,…2M-1)を算出する。
On the other hand, in this method, the wideband masking threshold calculation unit 365 has a band-controlled narrowband masking threshold N_th [f, w] (w = 0, 1,... M C −1) output from the band control unit 363. ) As Dnb-order feature data, and the codebook dictionary λ3 q = {μ'x q , μ'y q } (q = 1,..., Q) is read from the
このように、狭帯域マスキング閾値も近似多項式係数で表現して辞書として格納しておくことで、マスキング閾値を辞書として格納しておくよりも、図15における手法と比較しても、辞書の格納に掛かるメモリ量を削減することができ、辞書の配列の数を小さくなるため辞書の利用時の処理量を削減することができる。 Thus, by storing the narrowband masking threshold value as an approximate polynomial coefficient and storing it as a dictionary, storing the dictionary compared to the method in FIG. 15 rather than storing the masking threshold value as a dictionary. The amount of memory required for the dictionary can be reduced, and the number of dictionary arrays can be reduced, so that the processing amount when using the dictionary can be reduced.
(第2の実施例)
図19(a)は、本発明の第2の実施形態に係わる通信装置の構成を示すものである。
(Second embodiment)
FIG. 19A shows the configuration of a communication apparatus according to the second embodiment of the present invention.
この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、信号処理部3Aと、ディジタル・アナログ(D/A)変換器4と、スピーカ5と、マイク6と、アナログ・ディジタル(A/D)変換器7と、ダウンサンプリング部8と、エコー抑圧処理部9と、エンコーダ10とを備えている。
The communication apparatus shown in this figure shows a reception system of a wireless communication apparatus such as a cellular phone, for example, and includes a
なお、第1の実施例と同様に、本発明は、図19(a)のような通信装置だけでなく、図19(b)に示すディジタルオーディオプレイヤに適用することも可能である。また、図19(c)に示す音声帯域拡張通話装置に適用することも可能である。 As in the first embodiment, the present invention can be applied not only to the communication apparatus as shown in FIG. 19 (a) but also to the digital audio player shown in FIG. 19 (b). Also, the present invention can be applied to the voice band extended call device shown in FIG.
次に、信号処理部3Aについて説明する。図20は、その構成を示すものである。信号処理部3Aは、第1の実施例にて説明した信号処理部3に周囲雑音抑圧処理部37を追加して構成される。以下の説明では、上述した実施例と同じ構成については同じ番号を付番し、必要に応じて重複する説明を省略する。
Next, the signal processing unit 3A will be described. FIG. 20 shows the configuration. The signal processing unit 3A is configured by adding an ambient noise
図21に周囲雑音抑圧処理部37の構成例を示す。周囲雑音抑圧処理部37は、抑圧ゲイン算出部371と、スペクトル抑圧部372と、パワー算出部373と、時間領域変換部374とを備える。
FIG. 21 shows a configuration example of the ambient noise
周囲雑音抑圧処理部37は、周囲雑音推定部31から出力される周囲雑音のパワースペクトルと集音信号z[n]のパワースペクトルと集音信号z[n]の周波数スペクトルを用いて、集音信号z[n]に含まれる周囲雑音であるノイズ成分を抑圧して、周囲雑音であるノイズ成分が抑圧された信号s[n]をエンコーダ10に出力する。エンコーダ10では周囲雑音抑圧処理部37から出力された信号s[n]を符号化して無線通信部1に出力する。
The ambient noise
抑圧ゲイン算出部371は、パワー算出部312から出力される集音信号z[n]のパワースペクトル|Z[f,w]|2 (w=0,1,…M-1)と、周波数スペクトル更新部314から出力される周囲雑音のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)と、パワー算出部373から出力される1フレーム前の抑圧処理された信号のパワースペクトル|S[f-1,w]|2 (w=0,1,…M-1)とを用いて、各周波数帯域の抑圧ゲインG[f,w] (w=0,1,…M-1)を出力する。例えば、抑圧ゲインG[f,w]の算出は、以下のアルゴリズムまたはそれらの組み合わせによって行う。すなわち、一般のノイズキャンセラであるスペクトル・サブトラクション(Spectral Subtraction)法(S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).)、ウィナー・フィルター(Wiener Filter)法(J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.)及び最尤推定(Maximum Likelihood)法(R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.)などである。ここでは一例としてウィナー・フィルター法を用いて、抑圧ゲインG[f,w]を算出するとする。
The suppression
スペクトル抑圧部372は、周波数領域変換部311から出力された集音信号z[n]の周波数スペクトルZ[f,w] と、抑圧ゲイン算出部371から出力された抑圧ゲインG[f,w]とを入力として、集音信号z[n]の周波数スペクトルZ[f,w]を集音信号z[n]の振幅スペクトル|Z[f,w]| (w=0,1,…M-1)と位相スペクトルθZ[f,w] (w=0,1,…M-1)に分け、集音信号z[n]の振幅スペクトル|Z[f,w]| に抑圧ゲインG[f,w]を乗じることで周囲雑音であるノイズ成分を抑圧し、その抑圧処理された信号の振幅スペクトル|S[f-1,w]|とし、位相スペクトルθZ[f,w]をそのまま抑圧処理された信号の位相スペクトルθS[f,w]として、抑圧処理された信号の周波数スペクトルS[f,w] (w=0,1,…M-1)を算出する。
The
パワー算出部373は、スペクトル抑圧部372から出力された抑圧処理された信号の周波数スペクトルS[f,w] (w=0,1,…M-1)から抑圧処理された信号のパワースペクトル|S[f,w]|2 (w=0,1,…M-1)を算出し出力する。
The
時間領域変換部374は、スペクトル抑圧部372から出力された抑圧処理された信号の周波数スペクトルS[f,w] (w=0,1,…M-1)を入力として、周波数領域を時間領域に変換する処理(例えば、IFFT)を施し、周波数領域変換部311における窓掛けによるオーバーラップ分を考慮して1フレーム前の抑圧処理された信号s[n]を適宜加算して、抑圧処理された時間領域の信号s[n] (n=0,1,…N-1)を算出する。
Time
以上のように、周囲雑音推定処理に周囲雑音抑圧処理を併用することで処理量の増加を抑えつつ、入力信号を明瞭化すると同時に、集音信号における周囲雑音成分を抑圧して高音質な集音信号を得ることができる。 As described above, by combining ambient noise estimation processing with ambient noise suppression processing, the input signal is clarified while suppressing an increase in processing amount, and at the same time, high-quality sound collection is performed by suppressing ambient noise components in the collected sound signal. A sound signal can be obtained.
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. Further, for example, a configuration in which some components are deleted from all the components shown in the embodiment is also conceivable. Furthermore, you may combine suitably the component described in different embodiment.
例えば、入力信号(あるいは目的信号)のサンプリング周波数は、集音信号(あるいは周囲雑音)のサンプリング周波数の2倍に限定されるものではなく、整数倍でも、非整数倍でもよい。また、入力信号(あるいは目的信号)のサンプリング周波数は、集音信号(あるいは周囲雑音)のサンプリング周波数と等しい上で、入力信号(あるいは目的信号)の周波数帯域制限の範囲と集音信号(あるいは周囲雑音)の周波数帯域制限の範囲が異なっている場合であっても構わない。さらに、入力信号(あるいは目的信号)の周波数帯域制限の範囲が、集音信号(あるいは周囲雑音)の周波数帯域制限の範囲を包含していなくても構わない。さらにまた、入力信号(あるいは目的信号)の周波数帯域制限の範囲は、集音信号(あるいは周囲雑音)の周波数帯域制限の範囲と隣接していなくても構わない。 For example, the sampling frequency of the input signal (or target signal) is not limited to twice the sampling frequency of the sound collection signal (or ambient noise), and may be an integer multiple or a non-integer multiple. In addition, the sampling frequency of the input signal (or target signal) is equal to the sampling frequency of the sound collection signal (or ambient noise), and the range of the frequency band limitation of the input signal (or target signal) and the sound collection signal (or surroundings) (Noise) frequency band restriction range may be different. Furthermore, the range of the frequency band limitation of the input signal (or target signal) may not include the range of the frequency band limitation of the collected sound signal (or ambient noise). Furthermore, the frequency band restriction range of the input signal (or target signal) may not be adjacent to the frequency band restriction range of the collected sound signal (or ambient noise).
また、入力信号がモノラル信号ではなくステレオ信号であったとしても、例えばL(左)チャネルとR(右)チャネルにそれぞれ上記信号処理部3における信号処理を施したり、和信号(LチャネルとRチャネルの信号の和)と差信号(LチャネルからRチャネルの信号の差)にそれぞれ上記の信号処理を施したりすることで同様の効果が得られる。勿論、マルチチャネル信号であったとしても例えば同様にそれぞれのチャネル信号に対して上記の信号処理を施したりすることで同様の効果が得られる。
Even if the input signal is not a monaural signal but a stereo signal, for example, the
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。 In addition, it goes without saying that the present invention can be similarly implemented even if various modifications are made without departing from the gist of the present invention.
1…無線通信部、2,2A…デコーダ、3,30,300,3A…信号処理部、4…ディジタル・アナログ(D/A)変換器、5…スピーカ、6…マイク、7…アナログ・ディジタル(A/D)変換器、8…ダウンサンプリング部、9…エコー抑圧処理部、10…エンコーダ、11…記憶部、12…信号帯域拡張処理部、31…周囲雑音推定部、32,34,36…周囲雑音情報帯域拡張部、33,35…信号特性補正部、37…周囲雑音抑圧処理部、311,331…周波数領域変換部、312,352,373…パワー算出部、313…周囲雑音区間判定部、314…周波数スペクトル更新部、321…パワー正規化部、322,342,364…辞書格納部、323…広帯域パワー算出部、332,356…補正度合決定部、333…補正処理部、334,374…時間領域変換部、343…広帯域パワースペクトル算出部、344,365…広帯域マスキング閾値算出部、345…パワー制御部、353…マスキング閾値算出部、354…マスキング判定部、355…パワー平滑化部、362…狭帯域マスキング閾値算出部、363…帯域制御部、366…閾値補正部、371…抑圧ゲイン算出部、372…スペクトル抑圧部。
DESCRIPTION OF
Claims (6)
集音信号に含まれる周囲雑音を抽出する周囲雑音抽出手段と、
前記周囲雑音抽出手段によって抽出された周囲雑音から第2の周波数範囲の周波数特性情報を抽出する情報抽出手段と、
事前に取得した信号の前記第2の周波数範囲の周波数特性情報と前記第1の周波数範囲の周波数特性情報とを対応づけて記憶する記憶手段と、
前記記憶手段に記憶された第2の周波数範囲の周波数特性情報と第1の周波数範囲の周波数特性情報との対応を用いて、前記情報抽出手段によって抽出された周波数特性情報から、前記第1の周波数範囲のうち前記第2周波数範囲を除いた第3の周波数範囲における周波数特性情報を推定し、この推定した周波数特性情報と前記情報抽出手段により抽出された前記周波数特性情報とが、前記第2の周波数範囲と前記第3の周波数範囲との境界において連続するように補正して前記第1の周波数範囲へ周波数特性情報を周波数方向に拡張する周波数特性情報拡張手段と、
前記周波数特性情報拡張手段によって得られた周波数特性情報に応じて、前記入力信号の周波数特性を変化させる信号補正手段と、
を備えた信号処理装置。A signal processing device that changes a frequency characteristic with respect to an input signal band-limited to a first frequency range,
Ambient noise extraction means for extracting ambient noise contained in the collected sound signal;
Information extracting means for extracting frequency characteristic information of a second frequency range from the ambient noise extracted by the ambient noise extracting means;
Storage means for storing the frequency characteristic information of the second frequency range of the signal acquired in advance and the frequency characteristic information of the first frequency range in association with each other;
Using the correspondence between the frequency characteristic information of the frequency characteristic information and the first frequency range of the second frequency range stored in the storage unit, the frequency characteristic information extracted by the information extraction means, said first Frequency characteristic information in a third frequency range excluding the second frequency range is estimated, and the estimated frequency characteristic information and the frequency characteristic information extracted by the information extracting means are A frequency characteristic information expansion unit that extends the frequency characteristic information in the frequency direction to the first frequency range by correcting so as to be continuous at a boundary between the second frequency range and the third frequency range ;
Signal correcting means for changing the frequency characteristics of the input signal according to the frequency characteristic information obtained by the frequency characteristic information extending means;
A signal processing apparatus comprising:
ルであることを特徴とする請求項1記載の信号処理装置。 Frequency characteristic information extracted by the information extraction means, the signal processing apparatus according to claim 1, characterized in that the masking level for each frequency.
表現されることを特徴とする請求項2に記載の信号処理装置。 3. The signal processing apparatus according to claim 2 , wherein the masking level for each frequency extracted by the information extracting unit is approximated by a polynomial expression.
装置であって、
集音信号に含まれる周囲雑音を抽出する周囲雑音抽出手段と、
前記周囲雑音抽出手段によって抽出された周囲雑音から前記第1の周波数範囲よりも狭
い第2の周波数範囲の周波数特性情報を抽出する情報抽出手段と、
事前に取得した信号の前記第2の周波数範囲の周波数特性情報と前記第1の周波数範囲
の周波数特性情報とを対応づけて記憶する記憶手段と、
前記記憶手段に記憶された第2の周波数範囲の周波数特性情報と第1の周波数範囲の周
波数特性情報との対応を用いて、前記情報抽出手段によって抽出された周波数特性情報か
ら、前記第1の周波数範囲のうち前記第2周波数範囲を除いた第3の周波数範囲における
周波数特性情報を推定し、この推定した周波数特性情報と前記情報抽出手段により抽出さ
れた前記周波数特性情報とが、前記第2の周波数範囲と前記第3の周波数範囲との境界に
おいて連続するように補正を行うことで、前記第1の周波数範囲へ周波数特性情報を周波
数方向に拡張する周波数特性情報拡張手段と、
前記周波数特性情報拡張手段によって得られた周波数特性情報に応じて、前記入力信号
の周波数特性を変化させる信号補正手段と
を備えた信号処理装置。 A signal processing device that changes a frequency characteristic with respect to an input signal band-limited to a first frequency range,
Ambient noise extraction means for extracting ambient noise contained in the collected sound signal;
Information extracting means for extracting frequency characteristic information in a second frequency range narrower than the first frequency range from the ambient noise extracted by the ambient noise extracting means;
Storage means for storing the frequency characteristic information of the second frequency range of the signal acquired in advance and the frequency characteristic information of the first frequency range in association with each other;
The frequency characteristic information extracted by the information extraction means using the correspondence between the frequency characteristic information of the second frequency range stored in the storage means and the frequency characteristic information of the first frequency range .
In the third frequency range excluding the second frequency range in the first frequency range.
The frequency characteristic information is estimated, and the estimated frequency characteristic information and the information extracting means extract the frequency characteristic information.
The frequency characteristic information obtained at the boundary between the second frequency range and the third frequency range.
Frequency characteristic information extending means for extending frequency characteristic information in the frequency direction to the first frequency range by performing correction so as to be continuous in
A signal processing apparatus comprising: a signal correcting unit that changes a frequency characteristic of the input signal according to frequency characteristic information obtained by the frequency characteristic information extending unit.
ルであることを特徴とする請求項4記載の信号処理装置。 5. The signal processing apparatus according to claim 4, wherein the frequency characteristic information extracted by the information extraction means is a masking level for each frequency.
表現されることを特徴とする請求項5記載の信号処理装置。 6. The signal processing apparatus according to claim 5, wherein the masking level for each frequency extracted by the information extraction unit is approximated by a polynomial expression.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012144135A JP5443547B2 (en) | 2012-06-27 | 2012-06-27 | Signal processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012144135A JP5443547B2 (en) | 2012-06-27 | 2012-06-27 | Signal processing device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009072886A Division JP5127754B2 (en) | 2009-03-24 | 2009-03-24 | Signal processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012181561A JP2012181561A (en) | 2012-09-20 |
JP5443547B2 true JP5443547B2 (en) | 2014-03-19 |
Family
ID=47012736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012144135A Expired - Fee Related JP5443547B2 (en) | 2012-06-27 | 2012-06-27 | Signal processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5443547B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11037581B2 (en) | 2016-06-24 | 2021-06-15 | Samsung Electronics Co., Ltd. | Signal processing method and device adaptive to noise environment and terminal device employing same |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6539940B2 (en) * | 2013-12-19 | 2019-07-10 | 株式会社デンソー | Speech recognition apparatus and speech recognition program |
JP2019219419A (en) * | 2014-07-08 | 2019-12-26 | キヤノン株式会社 | Sample information acquisition system, data display system including the same, sample information acquisition method, program, and storage medium |
JP2016028229A (en) * | 2014-07-08 | 2016-02-25 | キヤノン株式会社 | Data processing apparatus, data display system having the same, sample information acquisition system, data processing method, program, and storage medium |
CN111402917B (en) * | 2020-03-13 | 2023-08-04 | 北京小米松果电子有限公司 | Audio signal processing method and device and storage medium |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3505085B2 (en) * | 1998-04-14 | 2004-03-08 | アルパイン株式会社 | Audio equipment |
JP4296622B2 (en) * | 1998-10-26 | 2009-07-15 | ソニー株式会社 | Echo canceling apparatus and method, and sound reproducing apparatus |
JP4135242B2 (en) * | 1998-12-18 | 2008-08-20 | ソニー株式会社 | Receiving apparatus and method, communication apparatus and method |
JP4135240B2 (en) * | 1998-12-14 | 2008-08-20 | ソニー株式会社 | Receiving apparatus and method, communication apparatus and method |
JP2000305599A (en) * | 1999-04-22 | 2000-11-02 | Sony Corp | Speech synthesizing device and method, telephone device, and program providing media |
JP2001188599A (en) * | 1999-10-19 | 2001-07-10 | Matsushita Electric Ind Co Ltd | Audio signal decoding device |
US6691085B1 (en) * | 2000-10-18 | 2004-02-10 | Nokia Mobile Phones Ltd. | Method and system for estimating artificial high band signal in speech codec using voice activity information |
JP4018571B2 (en) * | 2003-03-24 | 2007-12-05 | 富士通株式会社 | Speech enhancement device |
US7065206B2 (en) * | 2003-11-20 | 2006-06-20 | Motorola, Inc. | Method and apparatus for adaptive echo and noise control |
JP4602204B2 (en) * | 2005-08-31 | 2010-12-22 | ソニー株式会社 | Audio signal processing apparatus and audio signal processing method |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
-
2012
- 2012-06-27 JP JP2012144135A patent/JP5443547B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11037581B2 (en) | 2016-06-24 | 2021-06-15 | Samsung Electronics Co., Ltd. | Signal processing method and device adaptive to noise environment and terminal device employing same |
Also Published As
Publication number | Publication date |
---|---|
JP2012181561A (en) | 2012-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5127754B2 (en) | Signal processing device | |
JP4818335B2 (en) | Signal band expander | |
AU2009278263B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
KR101461774B1 (en) | A bandwidth extender | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
JP5528538B2 (en) | Noise suppressor | |
JP4945586B2 (en) | Signal band expander | |
JP4660578B2 (en) | Signal correction device | |
JP2013534651A (en) | Monaural noise suppression based on computational auditory scene analysis | |
JP5443547B2 (en) | Signal processing device | |
JP5148414B2 (en) | Signal band expander | |
JP6162254B2 (en) | Apparatus and method for improving speech intelligibility in background noise by amplification and compression | |
JP2009223210A (en) | Signal band spreading device and signal band spreading method | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Yang et al. | Environment-Aware Reconfigurable Noise Suppression | |
KR101479674B1 (en) | VTS Based Speech Feature Compensation method Using Noisy Speech Acoustic Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130510 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130827 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131219 |
|
LAPS | Cancellation because of no payment of annual fees |