JP3163206B2 - Acoustic signal coding device - Google Patents
Acoustic signal coding deviceInfo
- Publication number
- JP3163206B2 JP3163206B2 JP18038093A JP18038093A JP3163206B2 JP 3163206 B2 JP3163206 B2 JP 3163206B2 JP 18038093 A JP18038093 A JP 18038093A JP 18038093 A JP18038093 A JP 18038093A JP 3163206 B2 JP3163206 B2 JP 3163206B2
- Authority
- JP
- Japan
- Prior art keywords
- power spectrum
- filter
- audio signal
- characteristic
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Filters That Use Time-Delay Elements (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は、オーディオ信号や音声
信号を圧縮符号化して通信または蓄積する音響信号符号
化装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audio signal encoding apparatus for compressing and encoding an audio signal or an audio signal for communication or storage.
【0002】[0002]
【従来の技術】第1の従来技術として、音声信号を圧縮
符号化する際に、符号化で生じる量子化ノイズを、聴覚
マスキング特性を利用して、スペクトルシェイピングす
る技術がある。その一例としては、"A New Model of LP
C Excitation for Producing Natural-Sounding Speech
at Low Bit Rates", B.S.Atal and J. R. Remde,IEEEI
nt. Conf.on Acoustics, Speech and Signal Processin
g, pp.614-617,1982、が知られている。2. Description of the Related Art As a first prior art, there is a technique of spectrally shaping quantization noise generated by encoding when compressing and encoding an audio signal by utilizing an auditory masking characteristic. One example is "A New Model of LP
C Excitation for Producing Natural-Sounding Speech
at Low Bit Rates ", BSAtal and JR Remde, IEEEI
nt. Conf.on Acoustics, Speech and Signal Processin
g, pp. 614-617, 1982.
【0003】これは音声信号を線形予測分析して得られ
る線形予測係数を用いて、数1で表される伝達特性を持
つフィルタで、量子化誤差波形をフィルタリングし、そ
のフィルタリングされた誤差波形のエネルギーを最小化
するように符号化処理を行う手法である。[0003] This uses a linear prediction coefficient obtained by performing a linear prediction analysis on an audio signal to filter a quantization error waveform with a filter having a transfer characteristic expressed by the following equation (1). This is a method of performing an encoding process so as to minimize energy.
【0004】[0004]
【数1】 (Equation 1)
【0005】上記式(1)において、ak はk次の線形
予測係数、pは予測次数、β,γは0≦γ≦β≦1の定
数をそれぞれ表す。In the above equation (1), a k represents a k-th linear prediction coefficient, p represents a prediction order, and β and γ represent constants satisfying 0 ≦ γ ≦ β ≦ 1, respectively.
【0006】この聴覚的重み付けフィルタを用いた音声
符号化方式である、符号帳励振線形予測符号化(Code-Ex
cited Linear Predictive Coding.以後CELPと記
す)は、例えば、“Code-Excited Linear Prediction
(CELP):High-Quality Speech atVery Low Bit Rates",
M.R.Schroeder and B.S.Atal,IEEE Int.Conf.on Acoust
ics,Speech and Signal Processing,pp.937-940,1985に
示されている。図4はその構成を示すブロック図であ
る。A codebook-excited linear predictive coding (Code-Ex), which is a speech coding method using this auditory weighting filter,
cited Linear Predictive Coding. Hereinafter referred to as CELP) is, for example, “Code-Excited Linear Prediction
(CELP): High-Quality Speech at Very Low Bit Rates ",
MRSchroeder and BSAtal, IEEE Int.Conf.on Acoust
ics, Speech and Signal Processing, pp. 937-940, 1985. FIG. 4 is a block diagram showing the configuration.
【0007】図4において、1/A(z)は、式(2)
で表される音声の線形予測合成フィルタである。In FIG. 4, 1 / A (z) is given by the following equation (2).
Is a speech linear prediction synthesis filter represented by
【0008】[0008]
【数2】 (Equation 2)
【0009】上記式(1)においてγ=0.8,β=1
に設定して、上記式(2)で表される音声の線形予測合
成フィルタとこの聴覚的重み付けフィルタを合成する
と、式(3)のように簡略化される。In the above equation (1), γ = 0.8, β = 1
, And the audio linear prediction synthesis filter represented by the above equation (2) is synthesized with the perceptual weighting filter, the result is simplified as in equation (3).
【0010】この場合、図4のブロック図は、図5に示
す構成に変更される。In this case, the block diagram of FIG. 4 is changed to the configuration shown in FIG.
【0011】[0011]
【数3】 (Equation 3)
【0012】上述した従来の技術では聴覚的重み付けフ
ィルタは、聴覚マスキング特性を非常に簡単に近似した
特性で表している。In the prior art described above, the auditory weighting filter represents the auditory masking characteristic as a characteristic that is very easily approximated.
【0013】第2の従来技術として、オーディオ信号の
圧縮符号化で用いられている技術がある。この方式は、
第1の従来技術より積極的に聴覚マスキング特性を利用
している。As a second conventional technique, there is a technique used in compression coding of an audio signal. This method is
The auditory masking characteristic is more actively used than the first prior art.
【0014】図6に、MPEGで用いられている音響信
号の符号化部の動作シーケンスを示す。その一例は、
「音響信号の高能率符号化−MPEGオーディオ符号化
方式」後藤、日本音響学会誌47巻12号pp.966
−969,1991に示されている。FIG. 6 shows an operation sequence of an audio signal encoding unit used in MPEG. One example is
"High Efficiency Coding of Audio Signal-MPEG Audio Coding System" Goto, Journal of the Acoustical Society of Japan, Vol. 966
-969, 1991.
【0015】図6のフローの右上において、入力信号を
FFTを用いパワースペクトルを求め、パワースペクト
ルの情報等から、聴覚マスキング特性を算出している。
MPEG Layer1,2では、基本的には帯域分割
符号化を用いており、マスキング特性の情報等から、各
帯域毎の符号化ビットを決定している。In the upper right part of the flow of FIG. 6, a power spectrum is obtained from an input signal using FFT, and an auditory masking characteristic is calculated from information on the power spectrum.
In MPEG Layers 1 and 2, band division coding is basically used, and coded bits for each band are determined from information on masking characteristics and the like.
【0016】第3の従来技術としては、第1と第2の技
術を融合した技術がある。パワースペクトル情報から聴
覚マスキング特性を求め、その逆特性を持つ聴覚的重み
付けフィルタを用い、量子化誤差波形のエネルギーを最
小化するように符号化処理を行う手法である。その一例
は、"Some Experiments in Perceptual Maskinig ofQua
ntizing Noise in Analysis-By-Synthesis Speech Code
rs",R.Drogo De Iacovo and R.Montagna, EUROSPEECH,p
p.825-828,1991に示されている。As a third conventional technique, there is a technique that combines the first and second techniques. In this method, an auditory masking characteristic is obtained from power spectrum information, and an encoding process is performed using an auditory weighting filter having the inverse characteristic to minimize the energy of the quantization error waveform. One example is "Some Experiments in Perceptual Maskinig ofQua
ntizing Noise in Analysis-By-Synthesis Speech Code
rs ", R.Drogo De Iacovo and R.Montagna, EUROSPEECH, p
pp. 825-828, 1991.
【0017】この方式においては、ヒルベルト変換の技
術を用いて、聴覚マスキング特性のパワースペクトル特
性を持つ、最小位相有限インパルス応答フィルタ(以後
FIRフィルタと記す)を設計し、その逆フィルタを聴
覚的重み付けフィルタとして使用している。In this method, a minimum phase finite impulse response filter (hereinafter, referred to as an FIR filter) having a power spectrum characteristic of an auditory masking characteristic is designed using a Hilbert transform technique, and its inverse filter is weighted by an auditory weight. Used as a filter.
【0018】[0018]
【発明が解決しようとする課題】しかしながら、上述し
た第1の従来技術における聴覚的重み付けフィルタの特
性は、簡単な近似によって求められているので人間の聴
覚マスキング特性とは異なっており、量子化ノイズを充
分に隠蔽することができないという問題点があった。However, the characteristics of the auditory weighting filter in the first prior art described above are different from human auditory masking characteristics because they are obtained by simple approximation, and the quantization noise However, there was a problem that it was not possible to conceal sufficiently.
【0019】また、上述した第2の従来技術において
は、マスキング特性は、人間の聴覚マスキング特性のモ
デルに従って求めてはいるが、最終的に帯域分割符号化
を用いており、ビット配分等の付加情報も必要で、圧縮
率が充分に低くできないという問題点があった。In the second prior art, the masking characteristic is obtained in accordance with the model of the human auditory masking characteristic. However, the band division coding is finally used, and the addition of bit allocation and the like is performed. There is also a problem that information is required and the compression ratio cannot be sufficiently reduced.
【0020】更に、上述した第3の従来技術において
は、上記2つの問題点に対処し、聴覚マスキング特性を
考慮し、聴覚的重み付けフィルタを用いることで、圧縮
率の高い符号化方式が実現できる。しかしながら聴覚的
重み付けフィルタはFIRフィルタで構成されているゆ
え、同一フィルタ次数で振幅周波数特性を近似する観点
からは無限インパルス応答フィルタ(以後IIRフィル
タと記す)より劣るという課題と、第1の従来技術で説
明したような、聴覚的重み付けフィルタと、音声の線形
予測合成フィルタとの合成処理による処理の簡易化が困
難であるという問題点があった。Further, in the third prior art described above, by coping with the above two problems, taking into account the auditory masking characteristics, and using an auditory weighting filter, an encoding system with a high compression rate can be realized. . However, since the auditory weighting filter is composed of the FIR filter, it is inferior to the infinite impulse response filter (hereinafter referred to as IIR filter) from the viewpoint of approximating the amplitude frequency characteristic with the same filter order, and the first conventional technique. However, there is a problem that it is difficult to simplify the processing by the synthesis processing of the auditory weighting filter and the linear predictive synthesis filter of the voice as described in (1).
【0021】本発明の目的は、上述した従来の技術にお
ける問題点に鑑み、量子化ノイズを充分に隠蔽でき、圧
縮率が充分に低くできると共に全体の処理を簡易化でき
る音響信号符号化装置を提供することにある。An object of the present invention is to provide an audio signal encoding apparatus capable of sufficiently concealing quantization noise, sufficiently reducing the compression ratio, and simplifying the entire processing, in view of the above-mentioned problems in the prior art. To provide.
【0022】[0022]
【課題を解決するための手段】本発明の目的は、音響信
号のパワースペクトルを求める手段と、聴覚マスキング
スペクトル特性を求める手段と、音響信号の逆パワース
ペクトル特性を有する第1フィルタリング手段と、音響
信号のパワースペクトル特性を聴覚マスキングスペクト
ル特性で除したスペクトル特性を有する第2フィルタリ
ング手段とを備えており、第1フィルタリング手段及び
第2フィルタリング手段により聴覚的重み付け処理を行
う音響信号符号化装置によって達成される。SUMMARY OF THE INVENTION It is an object of the present invention to obtain a power spectrum of an audio signal, obtain an audio masking spectrum characteristic, a first filtering means having an inverse power spectrum characteristic of the audio signal, A second filtering unit having a spectral characteristic obtained by dividing a power spectral characteristic of the signal by an auditory masking spectral characteristic, and achieved by an audio signal encoding device that performs an auditory weighting process by the first filtering unit and the second filtering unit. Is done.
【0023】本発明の音響信号符号化装置は、音響信号
のパワースペクトルから自己相関系列を求める逆フーリ
エ変換手段と、自己相関系列から第2フィルタリング手
段の係数を算出する手段を備えるように構成されてもよ
い。An audio signal encoding apparatus according to the present invention is configured to include an inverse Fourier transform unit for obtaining an autocorrelation sequence from a power spectrum of an audio signal, and a unit for calculating a coefficient of a second filtering unit from the autocorrelation sequence. You may.
【0024】本発明の音響信号符号化装置は、対数パワ
ースペクトルを求める手段と、対数パワースペクトルか
ら逆フーリエ変換によってケプストラムを求める手段
と、ケプストラムから第2フィルタリング手段の係数を
算出する手段とを備えるように構成されてもよい。The audio signal encoding apparatus according to the present invention comprises means for obtaining a logarithmic power spectrum, means for obtaining a cepstrum from the logarithmic power spectrum by inverse Fourier transform, and means for calculating a coefficient of the second filtering means from the cepstrum. It may be configured as follows.
【0025】[0025]
【作用】本発明の音響信号符号化装置では、音響信号の
パワースペクトルを求め、聴覚マスキングスペクトル特
性を求め、第1フィルタリング手段は音響信号の逆パワ
ースペクトル特性を有し、第2フィルタリング手段は音
響信号のパワースペクトル特性を聴覚マスキングスペク
トル特性で除したスペクトル特性を有し、第1フィルタ
リング手段及び第2フィルタリング手段により聴覚的重
み付け処理を行う。In the audio signal encoding apparatus according to the present invention, the power spectrum of the audio signal is determined, the auditory masking spectrum characteristic is determined, the first filtering means has the inverse power spectrum characteristic of the audio signal, and the second filtering means has the audio power spectrum characteristic. It has a spectral characteristic obtained by dividing the power spectral characteristic of the signal by the auditory masking spectral characteristic, and performs an auditory weighting process by the first filtering means and the second filtering means.
【0026】本発明の音響信号符号化装置では、逆フー
リエ変換手段は音響信号のパワースペクトルから自己相
関系列を求め、自己相関系列から第2フィルタリング手
段の係数を算出する。In the audio signal encoding apparatus according to the present invention, the inverse Fourier transform means obtains an autocorrelation sequence from the power spectrum of the audio signal, and calculates a coefficient of the second filtering means from the autocorrelation sequence.
【0027】本発明の音響信号符号化装置では、対数パ
ワースペクトルを求め、対数パワースペクトルから逆フ
ーリエ変換によってケプストラムを求め、ケプストラム
から第2フィルタリング手段の係数を算出する。In the audio signal encoding apparatus according to the present invention, a logarithmic power spectrum is obtained, a cepstrum is obtained from the logarithmic power spectrum by inverse Fourier transform, and a coefficient of the second filtering means is calculated from the cepstrum.
【0028】[0028]
【実施例】以下、図面を参照して本発明の音響信号符号
化装置の実施例を説明する。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of an audio signal encoding apparatus according to the present invention.
【0029】図1は、本発明の音響信号符号化装置の第
1実施例の構成を示すブロック図であり、CELPシス
テムを用いた例を示す。FIG. 1 is a block diagram showing the configuration of a first embodiment of an audio signal encoding apparatus according to the present invention, and shows an example using a CELP system.
【0030】図1の音響信号符号化装置は、音響信号の
入力端子105、入力端子105に接続されており音響
信号を線形予測分析(以後LPC分析と記す)するLP
C分析部110、LPC分析部110に接続されており
LPC分析結果から信号のパワースペクトルP(ω)を
算出するパワースペクトル算出部111、パワースペク
トル算出部111に接続されており信号のパワースペク
トルからマスキング特性M(ω)を算出するマスキング
特性算出部112、パワースペクトル算出部111及び
マスキング特性算出部112に接続されており信号のパ
ワースペクトルをマスキング特性で割算する割算器11
3、割算器113に接続されており割算器113で求ま
ったスペクトル比特性からIIRフィルタ係数を求める
IIRフィルタ係数算出部114、入力端子105及び
LPC分析部110に接続されており入力信号を聴覚的
重み付けするための第1フィルタリング手段であるFI
Rフィルタ107、FIRフィルタ107及びIIRフ
ィルタ係数算出部114に接続されており入力信号を聴
覚的重み付けするための第2フィルタリング手段の一部
であるIIRフィルタ109、CELP音声符号化の励
振符号帳(コードブック)101、コードブック101
に接続されており励振信号を増幅する増幅部102、増
幅部102に接続されておりピッチ成分を合成するピッ
チ成分合成フィルタ103、ピッチ成分合成フィルタ1
03及びIIRフィルタ係数算出部114に接続されて
おり音声スペクトル合成フィルタと聴覚的重み付けフィ
ルタを合成した特性を持つ第2フィルタリング手段の他
の一部であるIIRフィルタ104、IIRフィルタ1
04,109に接続されており聴覚的重み付けされた入
力信号と聴覚的重み付けされた再生信号の差分をとる減
算部106、減算部106に接続されており差分波形の
エネルギーを最小化するように符号化パラメータを設定
するエネルギー最小化部108によって構成されてい
る。The audio signal encoding apparatus shown in FIG. 1 is connected to an input terminal 105 of an audio signal and an LP for performing linear prediction analysis (hereinafter referred to as LPC analysis) on the audio signal.
A power spectrum calculation unit 111 connected to the C analysis unit 110 and the LPC analysis unit 110 to calculate the power spectrum P (ω) of the signal from the LPC analysis result. A masking characteristic calculator 112 for calculating a masking characteristic M (ω), a power spectrum calculator 111, and a divider 11 connected to the masking characteristic calculator 112 for dividing the power spectrum of the signal by the masking characteristic.
3. The input signal is connected to the IIR filter coefficient calculation unit 114, the input terminal 105, and the LPC analysis unit 110 which are connected to the divider 113 and obtain the IIR filter coefficient from the spectrum ratio characteristic obtained by the divider 113. FI as first filtering means for auditory weighting
The IIR filter 109, which is connected to the R filter 107, the FIR filter 107, and the IIR filter coefficient calculation unit 114 and is a part of the second filtering means for perceptually weighting the input signal, an excitation codebook for CELP speech coding ( Codebook) 101, codebook 101
, An amplification unit 102 for amplifying the excitation signal, a pitch component synthesis filter 103 connected to the amplification unit 102 for synthesizing pitch components, and a pitch component synthesis filter 1
IIR filter 104, IIR filter 1 which is connected to the IIR filter coefficient calculating unit 114 and is another part of the second filtering means having the characteristic of combining the speech spectrum synthesis filter and the auditory weighting filter.
The subtraction unit 106 is connected to the subtraction unit 106 and the subtraction unit 106. The subtraction unit 106 is connected to the subtraction unit 106 and is connected to the subtraction unit 106 to reduce the energy of the difference waveform. It is configured by an energy minimizing unit 108 for setting the optimization parameter.
【0031】本実施例では、聴覚的重み付けフィルタの
構成法が上述した図5の従来技術と異なる。以下では聴
覚的重み付けフィルタの構成法に重点をおいて説明す
る。In this embodiment, the configuration of the auditory weighting filter is different from that of the prior art shown in FIG. The following description focuses on the configuration of the auditory weighting filter.
【0032】入力端子105から入力した信号は、ある
一定の時間長毎に区分化処理される。これをフレームと
呼ぶことにする。1フレームの信号はLPC分析部11
0で線形予測係数が算出される。この線形予測係数は上
記式(1)で示す聴覚的重み付けフィルタの分子項であ
るFIRフィルタ107の係数として設定される(但し
以後、上記式(1)において、β=1とする)。算出さ
れた線形予測係数から振巾伝達特性をパワースペクトル
算出部111で計算する。上記式(2)で表された伝達
特性から下記に示す式(4)でパワースペクトルが算出
される。The signal input from the input terminal 105 is subjected to a segmentation process for every certain time length. This is called a frame. The signal of one frame is output to the LPC analysis unit 11
At 0, a linear prediction coefficient is calculated. This linear prediction coefficient is set as a coefficient of the FIR filter 107 which is a numerator of the auditory weighting filter shown in the above equation (1) (hereafter, β = 1 in the above equation (1)). The amplitude transfer characteristic is calculated by the power spectrum calculation unit 111 from the calculated linear prediction coefficient. From the transfer characteristic expressed by the above equation (2), a power spectrum is calculated by the following equation (4).
【0033】[0033]
【数4】 (Equation 4)
【0034】上記式(4)において、ω=2πFs でF
s はサンプリング周波数である。In the above equation (4), when ω = 2πFs, F
s is the sampling frequency.
【0035】上述の説明では、LPC分析の結果から入
力信号のパワースペクトルを算出したが、入力信号をフ
ーリエ変換して算出してもよい。この場合、LPCスペ
クトルより周波数分解能を高く求められるので、マスキ
ング特性の算出がより精度よく計算できる。In the above description, the power spectrum of the input signal is calculated from the result of the LPC analysis. However, the input signal may be calculated by performing a Fourier transform. In this case, since the frequency resolution is required to be higher than the LPC spectrum, the masking characteristic can be calculated more accurately.
【0036】マスキング特性算出部112は、入力信号
のパワースペクトルから、マスキングスペクトル特性を
算出する。本処理手順の概要は、パワースペクトルを聴
覚の臨界帯域幅毎に分解し、全ての臨界帯域毎に、入力
信号による量子化雑音のマスキング曲線を算出し、信号
帯域全体に渡る最小可聴値及び時間軸でのマスキング等
を考慮してマスキング曲線M(ω)を算出する。マスキ
ング曲線の算出は、種々提案されており、その一例とし
ては"Estimation of Perceptual Entropy Using Noise
Masking Criteria",J.D Johnston,IEEE Int. Conf.on A
coustics, Speech and Signal Processing,pp.2524-252
7,1988がある。The masking characteristic calculator 112 calculates a masking spectrum characteristic from the power spectrum of the input signal. The outline of this processing procedure is to decompose the power spectrum for each critical auditory bandwidth, calculate the masking curve of the quantization noise due to the input signal for each critical band, and obtain the minimum audible value and time over the entire signal band. A masking curve M (ω) is calculated in consideration of masking at the axis and the like. Various calculations of a masking curve have been proposed, and one example is “Estimation of Perceptual Entropy Using Noise”.
Masking Criteria ", JD Johnston, IEEE Int. Conf.on A
coustics, Speech and Signal Processing, pp. 2524-252
There are 7,1988.
【0037】符号化による量子化ノイズは、このマスキ
ング曲線の形状に従ってシェイピングされるように聴覚
的重み付けフィルタを設計する。即ち、聴覚的重み付け
フィルタのパワースペクトルは、マスキングスペクトル
の逆特性を持つ必要がある。ここで下記の式(5)に示
す関係が成り立つフィルタF(z)を考える。The auditory weighting filter is designed so that the quantization noise due to the encoding is shaped according to the shape of the masking curve. That is, the power spectrum of the auditory weighting filter needs to have the inverse characteristic of the masking spectrum. Here, a filter F (z) that satisfies the relationship shown in the following equation (5) is considered.
【0038】[0038]
【数5】 (Equation 5)
【0039】フィルタF(z)の振巾伝達特性は、入力
信号のパワースペクトルP(ω)を、マスキングスペク
トルM(ω)で除した伝達特性を持つフィルタと考える
ことができる。The amplitude transfer characteristic of the filter F (z) can be considered as a filter having a transfer characteristic obtained by dividing the power spectrum P (ω) of the input signal by the masking spectrum M (ω).
【0040】このフィルタF(z)を全極形IIRフィ
ルタで実現した場合には、聴覚的重み付けフィルタW
(z)と音声合成フィルタ1/A(z)を合成すると、
下記に示す式(6)のように簡略化できる。When this filter F (z) is realized by an all-pole IIR filter, the auditory weighting filter W
When (z) and the speech synthesis filter 1 / A (z) are synthesized,
It can be simplified as in the following equation (6).
【0041】[0041]
【数6】 (Equation 6)
【0042】上記動作を行うために、割算部113でP
(ω)/M(ω)を求め、IIRフィルタ係数算出部1
14で、P(ω)/M(ω)で示されるパワースペクト
ルからIIRフィルタ係数を算出する。In order to perform the above operation, the dividing unit 113 sets P
(Ω) / M (ω) is obtained, and the IIR filter coefficient calculation unit 1
At 14, an IIR filter coefficient is calculated from the power spectrum represented by P (ω) / M (ω).
【0043】ここで、フィルタF(z)の伝達関数を式
(7)に示す。Here, the transfer function of the filter F (z) is shown in equation (7).
【0044】[0044]
【数7】 (Equation 7)
【0045】式(7)において、qはIIRフィルタの
次数で、音声の線形予測次数と一致している必要はな
い。fk はIIRフィルタ係数算出部114で算出され
たIIRフィルタのk次の係数である。In equation (7), q is the order of the IIR filter and does not need to match the linear prediction order of the speech. f k is a k-th order coefficient of the IIR filter calculated by the IIR filter coefficient calculation unit 114.
【0046】以上の処理で、LPC分析部110で求ま
った線形予測係数が設定されたA(z)の伝達関数を持
つFIRフィルタ107と上述したIIRフィルタで、
入力信号を聴覚的重み付け処理する。また、IIRフィ
ルタ109と同じ係数が設定されたIIRフィルタ10
4によって、聴覚的重み付けされた再生信号を得る。こ
の後の符号化処理は、一般のCELP符号化方式と同じ
であり、概略だけ説明すると、聴覚的重み付けされた入
力信号と、聴覚的重み付けされた再生信号の、誤差エネ
ルギーが最小になるように、符号化のパラメータを決定
する。In the above processing, the FIR filter 107 having the transfer function of A (z) in which the linear prediction coefficient obtained by the LPC analysis unit 110 is set and the IIR filter described above
Aurally weight the input signal. The IIR filter 10 having the same coefficient as the IIR filter 109 is set.
4 obtains an auditory weighted reproduction signal. The subsequent encoding process is the same as that of a general CELP encoding method, and will be briefly described so that the error energy between the input signal weighted perceptually and the reproduced signal weighted perceptually is minimized. , And determine the encoding parameters.
【0047】次に、パワースペクトルP(ω)と、マス
キングスペクトルM(ω)から、IIRフィルタ係数を
算出する処理法を説明する。Next, a method of calculating an IIR filter coefficient from the power spectrum P (ω) and the masking spectrum M (ω) will be described.
【0048】図2は、逆フーリエ変換と正規方程式を解
くことにより、パワースペクトルP(ω)とマスキング
スペクトルM(ω)から、IIRフィルタ係数を算出す
る処理手順を示す。FIG. 2 shows a processing procedure for calculating an IIR filter coefficient from the power spectrum P (ω) and the masking spectrum M (ω) by solving the inverse Fourier transform and the normal equation.
【0049】以下、図2を参照して説明する。Hereinafter, description will be made with reference to FIG.
【0050】まず、下記の式(8)に示すようにパワー
スペクトルを定義する。First, a power spectrum is defined as shown in the following equation (8).
【0051】[0051]
【数8】 (Equation 8)
【0052】パワースペクトルS(ω)と自己相関関数
R(τ)の間には、下記の式(9)で示すような関係が
あるので、τ=0〜qの範囲で、FFTの手法等を使
い、自己相関系列を算出する。Since the power spectrum S (ω) and the autocorrelation function R (τ) have a relationship as shown in the following equation (9), the FFT method and the like can be performed in the range of τ = 0 to q. Is used to calculate the autocorrelation sequence.
【0053】[0053]
【数9】 (Equation 9)
【0054】次に自己相関係数から、IIRフィルタ係
数への変換は、音声の線形予測分析で一般的に用いられ
ているように、式(10)の正規方程式を解くことで求
められる。Next, the conversion from the autocorrelation coefficient to the IIR filter coefficient is obtained by solving the normal equation of Expression (10) as generally used in the linear prediction analysis of speech.
【0055】[0055]
【数10】 (Equation 10)
【0056】式(10)において、(....)T は行列の
転置操作を表す。In equation (10), (...) T represents a matrix transpose operation.
【0057】上述した操作で、IIRフィルタの係数が
算出される。With the above operation, the coefficients of the IIR filter are calculated.
【0058】図3は、準同形処理によるケプストラムを
用いてIIRフィルタ係数を算出する他の手法を示す。FIG. 3 shows another method of calculating an IIR filter coefficient using a cepstrum by homomorphic processing.
【0059】ここではパワースペクトルP(ω)を、マ
スキングスペクトルM(ω)で除す演算を、対数領域で
行うので、式(11)に示す処理を行う。これは図3で
は、P(ω)、M(ω)をそれぞれ対数演算部301,
302で対数化して、演算部303で減算することに相
当する。Here, since the operation of dividing the power spectrum P (ω) by the masking spectrum M (ω) is performed in the logarithmic domain, the processing shown in equation (11) is performed. This is because in FIG. 3, P (ω) and M (ω) are logarithmic calculation units 301 and 301, respectively.
This corresponds to logarithmization at 302 and subtraction at arithmetic unit 303.
【0060】[0060]
【数11】 [Equation 11]
【0061】このLog S(ω)を逆FFT演算部3
04で逆フーリエ変換すると、式(12)によって、ケ
プストラムcn が算出される(「音声情報処理の基礎」
斎藤、中田、オーム社、pp.99−103、参照)。This Log S (ω) is calculated by the inverse FFT operation unit 3
When the inverse Fourier transform is performed at step 04, the cepstrum c n is calculated according to equation (12) (“basic of speech information processing”).
Saito, Nakata, Ohmsha, pp. 99-103).
【0062】[0062]
【数12】 (Equation 12)
【0063】ケプストラムcn の低次部分がスペクトル
構造を表しているので、ケプストラム窓(例えば、wn
=1:n=1〜q,wn =0:n>q)で窓掛けする。
こうして求まったケプストラムcn から、式(13)に
よってIIRフィルタの係数が算出される。Since the lower order part of the cepstrum c n represents the spectral structure, the cepstrum window (eg, w n
= 1: n = 1~q, w n = 0: to windowing with n> q).
From the cepstrum c n thus obtained, the coefficients of the IIR filter are calculated by equation (13).
【0064】[0064]
【数13】 (Equation 13)
【0065】ただし、式(13)において、kはk=1
〜qの整数である。However, in the equation (13), k is k = 1.
To q.
【0066】以上の説明はCELPシステムで説明した
が、マルチパルス符号化等の聴覚的重み付けフィルタを
構成要素として持つシステムへも容易に応用できる。Although the above description has been made with reference to the CELP system, the present invention can be easily applied to a system having an auditory weighting filter such as multi-pulse coding as a component.
【0067】なお、符号化装置の符号化に関する部分を
変更することにより、他の部分は一切変更なしで復号装
置を実現できる。By changing the part related to the coding of the coding apparatus, the decoding apparatus can be realized without changing other parts.
【0068】[0068]
【発明の効果】本発明の音響信号符号化装置は、音響信
号のパワースペクトルを求める手段と、聴覚マスキング
スペクトル特性を求める手段と、音響信号の逆パワース
ペクトル特性を有する第1フィルタリング手段と、音響
信号のパワースペクトル特性を聴覚マスキングスペクト
ル特性で除したスペクトル特性を有する第2フィルタリ
ング手段とを備えており、第1フィルタリング手段及び
第2フィルタリング手段により聴覚的重み付け処理を行
うので、符号化で生じる量子化ノイズを、聴覚的重み付
けフィルタによって、ノイズシェイピングすることがで
き、人間の聴覚特性の聴覚マスキングを利用することに
より、雑音を聞こえにくくして再生音質を向上できる。
また、聴覚的重み付けフィルタは、音声の線形予測合成
フィルタと合成することで、簡易化することができ、符
号化演算量を削減することができる。According to the present invention, there is provided an audio signal encoding apparatus comprising: means for obtaining a power spectrum of an audio signal; means for obtaining an auditory masking spectrum characteristic; first filtering means having an inverse power spectrum characteristic of the audio signal; A second filtering unit having a spectral characteristic obtained by dividing a power spectrum characteristic of the signal by an auditory masking spectral characteristic, and performing an auditory weighting process by the first filtering unit and the second filtering unit. Noise noise can be shaped by an auditory weighting filter, and the auditory masking of human auditory characteristics can be used to make the noise less audible and improve the reproduction sound quality.
Further, by synthesizing the auditory weighting filter with the speech linear prediction synthesis filter, the simplification can be performed, and the amount of encoding operation can be reduced.
【0069】本発明の音響信号符号化装置は、音響信号
のパワースペクトルから自己相関系列を求める逆フーリ
エ変換手段と、自己相関系列から第2フィルタリング手
段の係数を効果的に算出することができる。The audio signal encoding apparatus of the present invention can effectively calculate the coefficients of the inverse Fourier transform for obtaining the autocorrelation sequence from the power spectrum of the audio signal and the second filtering means from the autocorrelation sequence.
【0070】本発明の音響信号符号化装置は、対数パワ
ースペクトルを求める手段と、対数パワースペクトルか
ら逆フーリエ変換によってケプストラムを求める手段に
よって、ケプストラムから第2フィルタリング手段の係
数を効果的に算出することができる。The acoustic signal encoding apparatus according to the present invention uses a means for obtaining a logarithmic power spectrum and a means for obtaining a cepstrum by inverse Fourier transform from a logarithmic power spectrum to effectively calculate the coefficient of the second filtering means from the cepstrum. Can be.
【図1】本発明の音響信号符号化装置の一実施例の構成
を示すブロック図である。FIG. 1 is a block diagram illustrating a configuration of an embodiment of an audio signal encoding device according to the present invention.
【図2】本発明の音響信号符号化装置におけるフィルタ
係数算出の一例を説明するためのフローチャートであ
る。FIG. 2 is a flowchart for explaining an example of filter coefficient calculation in the audio signal encoding device of the present invention.
【図3】本発明の音響信号符号化装置におけるフィルタ
係数算出の他の一例を説明するためのブロック図であ
る。FIG. 3 is a block diagram for explaining another example of filter coefficient calculation in the audio signal encoding device of the present invention.
【図4】従来技術のCELP音声符号化方式を説明する
ためのブロック図である。FIG. 4 is a block diagram illustrating a conventional CELP speech coding scheme.
【図5】従来技術のCELP音声符号化方式の、聴覚的
重み付けフィルタ処理の簡易化を説明するためのブロッ
ク図である。FIG. 5 is a block diagram for explaining simplification of an auditory weighting filter process of a conventional CELP speech coding scheme.
【図6】従来技術の聴覚マスキングを考慮した符号化方
式を説明するためのフローチャートである。FIG. 6 is a flowchart for explaining a conventional encoding method in consideration of auditory masking.
101 CELPの励振符号帳(コードブック) 102 掛算部 103 ピッチ成分合成フィルタ 104,109 全極形IIRフィルタ 105 入力端子 106 減算部 107 FIRフィルタ 108 誤差エネルギー最小化部 110 線形予測分析部 111 パワースペクトル算出部 112 マスキング特性算出部 113 スペクトル比算出部 114 全極形IIRフィルタ算出部 301,302 対数演算部 303 減算部 304 逆フーリエ変換部 305 ケプストラム窓掛け部 306 ケプストラムから予測係数への変換部 101 CELP excitation codebook (codebook) 102 Multiplication unit 103 Pitch component synthesis filter 104, 109 All-pole IIR filter 105 Input terminal 106 Subtraction unit 107 FIR filter 108 Error energy minimization unit 110 Linear prediction analysis unit 111 Power spectrum calculation Unit 112 masking characteristic calculation unit 113 spectrum ratio calculation unit 114 all-pole IIR filter calculation unit 301, 302 logarithmic calculation unit 303 subtraction unit 304 inverse Fourier transform unit 305 cepstrum windowing unit 306 conversion unit from cepstrum to prediction coefficient
Claims (3)
段と、聴覚マスキングスペクトル特性を求める手段と、
該音響信号の逆パワースペクトル特性を有する第1フィ
ルタリング手段と、該音響信号のパワースペクトル特性
を該聴覚マスキングスペクトル特性で除したスペクトル
特性を有する第2フィルタリング手段とを備えており、
該第1フィルタリング手段及び該第2フィルタリング手
段により聴覚的重み付け処理を行うことを特徴とする音
響信号符号化装置。1. A means for obtaining a power spectrum of an acoustic signal, a means for obtaining an auditory masking spectrum characteristic,
A first filtering unit having an inverse power spectrum characteristic of the audio signal; and a second filtering unit having a spectrum characteristic obtained by dividing a power spectrum characteristic of the audio signal by the auditory masking spectrum characteristic.
An audio signal encoding device, wherein an audio weighting process is performed by the first filtering means and the second filtering means.
己相関系列を求める逆フーリエ変換手段と、自己相関系
列から前記第2フィルタリング手段の係数を算出する手
段を更に備えていることを特徴とする請求項1に記載の
音響信号符号化装置。2. The apparatus according to claim 1, further comprising: an inverse Fourier transform unit for obtaining an autocorrelation sequence from a power spectrum of the acoustic signal; and a unit for calculating a coefficient of the second filtering unit from the autocorrelation sequence. 2. The audio signal encoding device according to claim 1.
該対数パワースペクトルから逆フーリエ変換によってケ
プストラムを求める手段と、該ケプストラムから前記第
2フィルタリング手段の係数を算出する手段とを更に備
えていることを特徴とする請求項1に記載の音響信号符
号化装置。3. A means for obtaining a logarithmic power spectrum,
2. The audio signal encoding according to claim 1, further comprising: means for obtaining a cepstrum from the logarithmic power spectrum by inverse Fourier transform; and means for calculating a coefficient of the second filtering means from the cepstrum. apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18038093A JP3163206B2 (en) | 1993-07-21 | 1993-07-21 | Acoustic signal coding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18038093A JP3163206B2 (en) | 1993-07-21 | 1993-07-21 | Acoustic signal coding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0736484A JPH0736484A (en) | 1995-02-07 |
JP3163206B2 true JP3163206B2 (en) | 2001-05-08 |
Family
ID=16082227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18038093A Expired - Fee Related JP3163206B2 (en) | 1993-07-21 | 1993-07-21 | Acoustic signal coding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3163206B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9016974B2 (en) | 2009-07-02 | 2015-04-28 | Vertical Leisure Ltd | Coupling device |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1076297A1 (en) * | 1999-08-09 | 2001-02-14 | Deutsche Thomson-Brandt Gmbh | Method for fast Fourier transformation of audio signals |
JP2004356894A (en) * | 2003-05-28 | 2004-12-16 | Mitsubishi Electric Corp | Sound quality adjuster |
CN118136042B (en) * | 2024-05-10 | 2024-07-23 | 四川湖山电器股份有限公司 | Frequency spectrum optimization method, system, terminal and medium based on IIR frequency spectrum fitting |
-
1993
- 1993-07-21 JP JP18038093A patent/JP3163206B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9016974B2 (en) | 2009-07-02 | 2015-04-28 | Vertical Leisure Ltd | Coupling device |
Also Published As
Publication number | Publication date |
---|---|
JPH0736484A (en) | 1995-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100421226B1 (en) | Method for linear predictive analysis of an audio-frequency signal, methods for coding and decoding an audiofrequency signal including application thereof | |
JP3566652B2 (en) | Auditory weighting apparatus and method for efficient coding of wideband signals | |
JP3481390B2 (en) | How to adapt the noise masking level to a synthetic analysis speech coder using a short-term perceptual weighting filter | |
EP1232494B1 (en) | Gain-smoothing in wideband speech and audio signal decoder | |
JP2940005B2 (en) | Audio coding device | |
EP0673013B1 (en) | Signal encoding and decoding system | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
US6078880A (en) | Speech coding system and method including voicing cut off frequency analyzer | |
US6119082A (en) | Speech coding system and method including harmonic generator having an adaptive phase off-setter | |
US6098036A (en) | Speech coding system and method including spectral formant enhancer | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
US6067511A (en) | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech | |
US6094629A (en) | Speech coding system and method including spectral quantizer | |
JPH10307599A (en) | Waveform interpolating voice coding using spline | |
JPH08123495A (en) | Wide-band speech restoring device | |
EP0865029A1 (en) | Efficient decomposition in noise and periodic signal waveforms in waveform interpolation | |
JPH07261800A (en) | Transformation encoding method, decoding method | |
JP3095133B2 (en) | Acoustic signal coding method | |
JP3163206B2 (en) | Acoustic signal coding device | |
JP3510168B2 (en) | Audio encoding method and audio decoding method | |
JP3186013B2 (en) | Acoustic signal conversion encoding method and decoding method thereof | |
JPS63118200A (en) | Multi-pulse encoding method and apparatus | |
JP2946525B2 (en) | Audio coding method | |
JP3192999B2 (en) | Voice coding method and voice coding method | |
JP3552201B2 (en) | Voice encoding method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080223 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090223 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100223 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |