JP4935329B2 - Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program - Google Patents
Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program Download PDFInfo
- Publication number
- JP4935329B2 JP4935329B2 JP2006325696A JP2006325696A JP4935329B2 JP 4935329 B2 JP4935329 B2 JP 4935329B2 JP 2006325696 A JP2006325696 A JP 2006325696A JP 2006325696 A JP2006325696 A JP 2006325696A JP 4935329 B2 JP4935329 B2 JP 4935329B2
- Authority
- JP
- Japan
- Prior art keywords
- band
- noise
- residual signal
- unit
- flag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims 4
- 238000006243 chemical reaction Methods 0.000 claims 28
- 230000002194 synthesizing effect Effects 0.000 claims 4
- 238000001228 spectrum Methods 0.000 claims 3
- 230000009466 transformation Effects 0.000 claims 3
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 claims 2
- 238000005311 autocorrelation function Methods 0.000 claims 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、分析合成型の音声圧縮復元を実行する際に必要となる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムに関する。 The present invention relates to a speech encoding device, speech decoding device, speech encoding method, speech decoding method, and program that are required when performing analysis / synthesis speech compression / decompression.
移動体通信の分野においては、利用者の増加に対処する等の理由から、低ビットレート(8kbps程度)の音声の圧縮符号化方法が求められている。例えば、8kbpsの音声符号化方法として、ITU-T勧告G.729に示される音声符号化方法がある。該勧告に係る音声符号化方法は、基本的には、音声信号を予測分析により予測係数と残差信号とに分解してから送信する方法である。予測分析としては、例えば、線型予測分析や、MLSA(Mel Log Spectrum Approximation)分析(例えば、非特許文献1参照。)が知られている。 In the field of mobile communications, a low bit rate (about 8 kbps) audio compression coding method is required for the purpose of dealing with an increase in users. For example, as an 8 kbps speech coding method, there is a speech coding method shown in ITU-T recommendation G.729. The speech coding method according to the recommendation is basically a method of transmitting a speech signal after decomposing it into a prediction coefficient and a residual signal by predictive analysis. As prediction analysis, for example, linear prediction analysis and MLSA (Mel Log Spectrum Approximation) analysis (for example, refer to Non-Patent Document 1) are known.
分析合成型の符号化及び復号において上述の低ビットレート通信を可能にするためには、符号化装置側から復号装置側へ、いかに残差信号に関する情報を効率的に伝達するか、に、工夫が必要となる。残差信号は情報量が多いため、そのまま送信すると、オーバーフローしてしまうからである。 In order to enable the above-described low bit rate communication in the analysis and synthesis type encoding and decoding, it is necessary to devise how to efficiently transmit information on the residual signal from the encoding device side to the decoding device side. Is required. This is because the residual signal has a large amount of information and thus overflows if transmitted as it is.
かかる工夫のひとつとして、典型的な残差信号を集めた符号帳を符号化側の装置(送信機)と復号側の装置(受信機)とで共有し、前者の装置から後者の装置に向けて、符号帳から選択された残差信号がどれであるかを伝えることが行われている。しかし、音質改善のために動的な符号帳を用いた場合、送信機と受信機との間で符号帳のミスマッチが生じ得るという問題がある。 As one of such contrivances, a codebook in which typical residual signals are collected is shared between the encoding side device (transmitter) and the decoding side device (receiver), and the former device is directed to the latter device. Thus, it is performed to tell which residual signal is selected from the codebook. However, when a dynamic codebook is used to improve sound quality, there is a problem that a codebook mismatch may occur between the transmitter and the receiver.
なお、送信機で生成された残差信号は、受信機においては音声再生のための励起信号として使われる。つまり、残差信号という用語と励起信号という用語とは、局面によって使い分けがなされるに過ぎず、実体としては同じものを指す。よって、以下では、両用語の使い方には拘泥しない。 The residual signal generated by the transmitter is used as an excitation signal for sound reproduction in the receiver. In other words, the term “residual signal” and the term “excitation signal” are used differently depending on the situation, and are the same in substance. Therefore, in the following, the usage of both terms is not particular.
上述の符号帳を用いることなく、残差信号に関する情報を効率的に伝達するための工夫として、送信機が残差信号を周波数変換してから符号化することが考えられる。 As a device for efficiently transmitting information about the residual signal without using the above-described codebook, it is conceivable that the transmitter performs frequency conversion of the residual signal and then encodes it.
しかし、例えば音声が子音の場合には、残差信号は雑音としての性質を顕著に有することが多く、このようなときにまで一律に周波数変換係数を受信機に伝達することには無駄が多い。すなわち、限られた送信容量を効率的に利用することができない。 However, for example, when the voice is a consonant, the residual signal often has a characteristic as noise, and it is wasteful to uniformly transmit the frequency conversion coefficient to the receiver until such time. . That is, the limited transmission capacity cannot be used efficiently.
本発明は、上記実情に鑑みてなされたもので、音声圧縮復号技術において、残差信号を複数の帯域に分割し、雑音帯域については主にその旨を示すフラグを送信対象とし、非雑音帯域については周波数変換係数を送信対象とすることにより、残差信号に関する情報を効率的に伝達しつつ、再生音声の品質を十分に確保するような、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and in a speech compression decoding technique, a residual signal is divided into a plurality of bands, and a noise band is mainly transmitted with a flag indicating that as a non-noise band. In the case of a speech coding apparatus, a speech decoding apparatus, a speech coding, and the like, the frequency conversion coefficient is set as a transmission target so that the quality of the reproduced speech is sufficiently ensured while efficiently transmitting information on the residual signal. It is an object to provide a method, a speech decoding method, and a program.
上記目的を達成するために、この発明の第1の観点に係る音声符号化装置は、
音声信号を予測分析により予測係数と残差信号とに分解する予測分析部と、
前記残差信号を帯域別残差信号に分割する帯域別残差信号生成部と、
前記残差信号について帯域毎に該帯域が雑音帯域か否かを判別する雑音判別部と、
前記雑音判別部により雑音帯域であると判別された前記帯域について該帯域が雑音帯域であることを示すフラグを生成するとともに該帯域の帯域別残差信号のゲインを求めるフラグ生成部と、
前記雑音判別部により雑音帯域ではないと判別された前記帯域の前記帯域別残差信号を実時間領域において重ね合わせてから周波数変換して、非雑音帯域における周波数変換係数を生成する非雑音帯域変換部と、
前記予測分析部で得られた予測係数と前記フラグ生成部で得られたフラグとゲインと前記非雑音帯域変換部で生成された周波数変換係数とを符号化する符号化部と、
を備える。
In order to achieve the above object, a speech encoding apparatus according to the first aspect of the present invention provides:
A prediction analysis unit that decomposes a speech signal into a prediction coefficient and a residual signal by prediction analysis;
A residual signal generator for each band that divides the residual signal into residual signals for each band;
A noise discriminating unit that discriminates whether or not the band is a noise band for each band of the residual signal;
A flag generating unit for generating a flag indicating that the band is a noise band for the band determined to be a noise band by the noise determining unit and obtaining a gain of a residual signal for each band of the band ;
Non-noise band conversion for generating a frequency conversion coefficient in a non-noise band by superimposing the band-specific residual signals of the band determined not to be a noise band by the noise determination unit in the real-time domain and then performing frequency conversion And
An encoding unit that encodes the prediction coefficient obtained by the prediction analysis unit, the flag and gain obtained by the flag generation unit, and the frequency conversion coefficient generated by the non-noise band conversion unit ;
Is provided.
残差信号を複数の帯域に分割し、雑音帯域については原則としてその旨を示すフラグのみを送信対象とし、非雑音帯域については周波数変換係数を送信対象とすることにより、残差信号に関する情報の効率的な伝達と、再生音声の品質の確保と、を両立させることができる。 The residual signal is divided into a plurality of bands, and for the noise band, only the flag indicating that in principle is to be transmitted, and for the non-noise band, the frequency conversion coefficient is to be transmitted. It is possible to achieve both efficient transmission and ensuring the quality of reproduced audio.
上記目的を達成するために、この発明の第2の観点に係る音声符号化装置は、
音声信号を予測分析により予測係数と残差信号とに分解する予測分析部と、
前記残差信号を周波数変換して周波数変換係数を生成する全帯域変換部と、
前記残差信号を帯域別残差信号に分割する帯域別残差信号生成部と、
前記残差信号について帯域毎に該帯域が雑音帯域か否かを判別する雑音判別部と、
前記雑音判別部により雑音帯域であると判別された前記帯域について該帯域が雑音帯域であることを示すフラグを生成するとともに該帯域の帯域別残差信号のゲインを求めるフラグ生成部と、
前記全帯域変換部で得られた周波数変換係数から、前記雑音判別部により雑音帯域ではないと判別された前記帯域の周波数変換係数を集計する集計手段と、
前記予測分析部で得られた予測係数と前記フラグ生成部で得られたフラグとゲインと前記集計手段で集計された周波数変換係数とを符号化する符号化部と、
を備える。
In order to achieve the above object, a speech encoding apparatus according to the second aspect of the present invention provides:
A prediction analysis unit that decomposes a speech signal into a prediction coefficient and a residual signal by prediction analysis;
A full-band conversion unit that frequency-converts the residual signal to generate a frequency conversion coefficient;
A residual signal generator for each band that divides the residual signal into residual signals for each band;
A noise discriminating unit that discriminates whether or not the band is a noise band for each band of the residual signal;
A flag generating unit for generating a flag indicating that the band is a noise band for the band determined to be a noise band by the noise determining unit and obtaining a gain of a residual signal for each band of the band ;
From the frequency conversion coefficients obtained by the all-band conversion unit, a totaling unit that totalizes the frequency conversion coefficients of the band determined not to be a noise band by the noise determination unit,
An encoding unit that encodes the prediction coefficient obtained by the prediction analysis unit, the flag and gain obtained by the flag generation unit, and the frequency conversion coefficient tabulated by the tabulation unit ;
Is provided.
残差信号を帯域別残差信号に分割する前に周波数変換係数を全帯域に渡って一括して求めるので、帯域フィルタの分解能等の性能に関係なく高い精度で周波数変換係数を求めることができる。 Since the frequency conversion coefficient is obtained all over the entire band before dividing the residual signal into band-specific residual signals, the frequency conversion coefficient can be obtained with high accuracy regardless of the performance such as the resolution of the band filter. .
前記雑音判別部は、例えば、前記帯域毎に前記帯域別残差信号の自己相関関数の形状に基づき該帯域が雑音帯域か否かを判別する。 The noise determination unit determines, for example, whether or not the band is a noise band based on the shape of the autocorrelation function of the band-specific residual signal for each band.
このようにすると、後に詳しく述べるように、所定の基準を採用することにより、容易に有声無声判別ができる。 In this way, as will be described in detail later, voiced / unvoiced discrimination can be easily performed by adopting a predetermined standard.
前記予測分析部は、例えば、MLSA(Mel Log Spectrum Approximation)分析により前記予測係数としてMLSAフィルタ係数を求め、該MLSAフィルタ係数により定義される逆フィルタを用いて前記残差信号を求める。 The prediction analysis unit obtains an MLSA filter coefficient as the prediction coefficient by, for example, MLSA (Mel Log Spectrum Approximation) analysis, and obtains the residual signal using an inverse filter defined by the MLSA filter coefficient.
前記予測分析部は、あるいは例えば、線形予測分析により前記予測係数として線形予測係数を求め、該線型予測係数により定義される逆フィルタを用いて前記残差信号を求める。 The prediction analysis unit obtains a linear prediction coefficient as the prediction coefficient by, for example, linear prediction analysis, and obtains the residual signal using an inverse filter defined by the linear prediction coefficient.
上記目的を達成するために、この発明の第3の観点に係る音声復号装置は、
予測分析により音声信号から生成された予測係数、該予測分析により該音声信号から生成された残差信号の特定の帯域が雑音帯域であることを示すフラグ、雑音帯域における帯域別残差信号のゲイン、及び、非雑音帯域における周波数変換係数、が符号化された結果である符号を受信する受信部と、
前記符号から、前記予測係数、前記フラグ、前記ゲイン、及び、前記非雑音帯域における周波数変換係数、を復号する復号部と、
前記フラグにより雑音帯域であることが示されている帯域において帯域毎に前記ゲインにより振幅が調整された雑音列を生成する雑音列生成部と、
前記フラグにより雑音帯域であることが示されている帯域においては当該帯域における周波数変換係数を全て0として記憶し、前記非雑音帯域においては前記復号された周波数変換係数を記憶することで全帯域の周波数変換係数を生成し、この生成された周波数変換係数をスペクトル逆変換して非雑音帯域における残差信号を求める逆変換部と、
前記雑音列生成部で生成された雑音列と前記逆変換部で求められた非雑音帯域における残差信号とを重ね合わせて復元残差信号を生成する残差信号復元部と、
前記復号部で復号された予測係数と前記残差信号復元部で生成された復元残差信号とを合成することにより復元音声信号を生成する合成部と、
を備える。
In order to achieve the above object, a speech decoding apparatus according to the third aspect of the present invention provides:
Prediction coefficient generated from speech signal by prediction analysis, flag indicating that specific band of residual signal generated from speech signal by prediction analysis is noise band, gain of residual signal by band in noise band And a receiving unit that receives a code that is a result of encoding a frequency conversion coefficient in a non-noise band ;
A decoding unit that decodes the prediction coefficient, the flag, the gain, and the frequency transform coefficient in the non-noise band from the code;
A noise string generation unit that generates a noise string whose amplitude is adjusted by the gain for each band in a band indicated by the flag to be a noise band;
In the band indicated by the flag as a noise band, all the frequency conversion coefficients in the band are stored as 0, and in the non-noise band, the decoded frequency conversion coefficient is stored to store the entire band. An inverse transform unit that generates a frequency transform coefficient and inversely transforms the generated frequency transform coefficient to obtain a residual signal in a non-noise band ;
A residual signal restoration unit that generates a restored residual signal by superimposing a noise sequence generated by the noise sequence generation unit and a residual signal in a non-noise band obtained by the inverse transformation unit ;
A synthesizing unit that generates a restored speech signal by synthesizing the prediction coefficient decoded by the decoding unit and the restored residual signal generated by the residual signal restoring unit ;
Is provided.
本発明によれば、分析合成型の音声信号通信において、情報伝達量を抑えつつ、再生音声の音質を向上させることができる。 According to the present invention, it is possible to improve the sound quality of reproduced sound while suppressing the amount of information transmitted in analysis / synthesis type audio signal communication.
以下、本発明の実施の形態に係る音声符号化装置及び音声復号装置について詳細に説明する。音声符号化装置の機能構成例として3種類(それぞれ実施形態1、実施形態2、実施形態3、とする。)を、音声復号装置の機能構成例として2種類(それぞれ実施形態4、実施形態5とする。)を挙げ、さらに、これらの機能構成例を実現するための物理的な構成例として音声符号化兼復号装置(実施形態6とする。)を挙げる。なお、これらの実施形態を順次記述するにあたっては、原則として、同一の部材については同一の符号を付すこととし、その説明を省略する。
The speech encoding apparatus and speech decoding apparatus according to embodiments of the present invention will be described in detail below. Three types of functional configuration examples of speech encoding apparatuses (respectively,
なお、実施形態1乃至実施形態3に係る音声符号化装置が送信する信号は、本質的には同じものである。また、実施形態4及び実施形態5に係る音声復号装置が受信する信号は、本質的には同じものである。よって、実施形態6に係る音声符号化兼復号装置としては、上述の音声符号化装置と音声復号装置を任意に組み合わせたものを想定してよい。
Note that the signals transmitted by the speech encoding apparatus according to
(実施形態1)
図1は、本実施形態に係る音声符号化装置111の機能構成図である。
(Embodiment 1)
FIG. 1 is a functional configuration diagram of the speech encoding device 111 according to the present embodiment.
音声符号化装置111は、図示するように、マイクロフォン121と、A/D変換部123と、予測分析部125と、帯域フィルタ部127と、雑音判別部129と、符号化用Aスイッチ部131と、フラグ及びゲイン生成部133と、集計変換部135と、符号化部137と、送信部139と、を備える。
As shown in the figure, the speech encoding device 111 includes a
予測分析部125は、予測分析用逆フィルタ算出器141を内蔵している。
The
帯域フィルタ部127は、第1帯域フィルタ143と、第2帯域フィルタ145と、図1では省略するが、第3帯域フィルタ以降の必要な帯域フィルタと、を備える。
The
雑音判別部129は、第1雑音判別器147と、第2雑音判別器149と、図1では省略するが、第3雑音判別器以降の必要な雑音判別器と、を備える。
The
符号化用Aスイッチ部131は、第1Aスイッチ151と、第2Aスイッチ153と、図1では省略するが、第3Aスイッチ以降の必要なAスイッチと、を備える。
The encoding
フラグ及びゲイン生成部133は、第1フラグ生成及び第1ゲイン算出器155と、第2フラグ生成及び第2ゲイン算出器157と、図1では省略するが、第3フラグ生成及び第3ゲイン算出器以降の必要なフラグ生成及びゲイン算出器と、を備え、フラグ及び雑音ゲイン集計器159をさらに備える。
The flag and gain generation unit 133 includes a first flag generation and first gain calculator 155, a second flag generation and
集計変換部135は、非雑音残差信号集計器161と、スペクトル変換器163と、非雑音帯域切り出し器162と、を備える。
The
マイクロフォン121に入力されたアナログ音声信号は、A/D変換部123により、例えば16kHzサンプリングにより、デジタル音声信号に変換されてから、予測分析部125に引き渡される。予測分析部125は、引き渡されたデジタル音声信号に、線型予測分析やMLSA(Mel Log Spectrum Approximation)分析等の予測分析を施す。予測分析部125は、該デジタル音声信号を、所定の時間区間(例えば5ms)に区切って、Si={si、0、・・・、si、l-1}(0≦i≦M-1)という形にした後、各時間区間について、予測係数、例えば、線型予測係数やMLSA係数、を算出する。続いて、該予測係数から、予測分析用逆フィルタ算出器141により、予測分析用逆フィルタを求める。次に、デジタル音声信号Siが該予測分析用逆フィルタに入力された結果として、残差信号Di={di、0、・・・、di、l-1}(0≦i≦M-1)が求まる。このように、予測分析部125は、デジタル音声信号を、予測係数と残差信号とに分解する。
The analog audio signal input to the
予測分析部125により生成された予測係数は、そのまま符号化部137に引き渡される。
The prediction coefficient generated by the
一方、同じく生成された残差信号は、帯域フィルタ部127に引き渡されて、帯域毎の残差信号に分割される。帯域フィルタ部127は、例えば、残差信号を帯域1乃至8に分割し、帯域1を0〜1kHz、帯域2を1〜2kHz、帯域3を2〜3kHz、帯域4を3〜4kHz、帯域5を4〜5kHz、帯域6を5kHz〜6kHz、帯域7を6kHz〜7kHz、帯域8を7kHz〜8kHz、とするのが好適である。残差信号が第1帯域フィルタ143に通されることにより帯域1の残差信号が生成され、残差信号が第2帯域フィルタ145に通されることにより帯域2の残差信号が生成され、以下、同様である。
On the other hand, the generated residual signal is transferred to the
帯域識別のための変数をωと表記することにする。例えば、第1帯域フィルタ143により生成される信号はω=1の帯域の信号であるとし、第2帯域フィルタ145により生成される信号はω=2の帯域の信号であるとする。
A variable for band identification is denoted by ω. For example, it is assumed that the signal generated by the
生成された帯域1の残差信号は、雑音判別部129の中の第1雑音判別器147と、符号化用Aスイッチ部131の中の第1Aスイッチ151と、に引き渡され、生成された帯域2の残差信号は、雑音判別部129の中の第2雑音判別器149と、符号化用Aスイッチ部131の中の第2Aスイッチ153と、に引き渡され、以下、同様である。
The generated
第1雑音判別器147は、引き渡された帯域1の残差信号が雑音であるか否かを判別し、第1Aスイッチ151に対して切替命令を送る。ここで、切替命令とは、帯域1の残差信号が雑音であると判別された場合には第1Aスイッチ151をa1側に閉じ、帯域1の残差信号が雑音ではないと判別された場合には第1Aスイッチをb1側に閉じるように、第1Aスイッチ151を制御する命令である。第2雑音判別器149は、引き渡された帯域2の残差信号が雑音であるか否かを判別し、第2Aスイッチ153に対して切替命令を送る。ここで、切替命令とは、帯域2の残差信号が雑音であると判別された場合には第2Aスイッチ153をa2側に閉じ、帯域2の残差信号が雑音ではないと判別された場合には第2Aスイッチをb2側に閉じるように、第2Aスイッチ153を制御する命令である。帯域3以降についても同様である。
The first noise discriminator 147 discriminates whether or not the handed over
第1Aスイッチ151がa1側に閉じた場合は、帯域1の残差信号は、フラグ及びゲイン生成部133の中の第1フラグ生成及び第1ゲイン算出器155には引き渡されるが、集計変換部135の中の非雑音残差信号集計器161には引き渡されない。一方、第1Aスイッチ151がb1側に閉じた場合は、帯域1の残差信号は、フラグ及びゲイン生成部133の中の第1フラグ生成及び第1ゲイン算出器155には引き渡されないが、集計変換部135の中の非雑音残差信号集計器161には引き渡される。第2Aスイッチ153がa2側に閉じた場合は、帯域2の残差信号は、フラグ及びゲイン生成部133の中の第2フラグ生成及び第2ゲイン算出器157には引き渡されるが、集計変換部135の中の非雑音残差信号集計器161には引き渡されない。一方、第2Aスイッチ153がb2側に閉じた場合は、帯域1の残差信号は、フラグ及びゲイン生成部133の中の第2フラグ生成及び第2ゲイン算出器157には引き渡されないが、集計変換部135の中の非雑音残差信号集計器161には引き渡される。帯域3以降についても同様である。
When the first A switch 151 is closed to the a1 side, the
フラグ及びゲイン生成部133の中の第1フラグ生成及び第1ゲイン算出器155は、帯域1の残差信号を受け取った場合には、帯域1が雑音帯域である旨を示すフラグを生成するとともに帯域1の残差信号のゲインを算出し、該フラグ及び該ゲインを同じくフラグ及びゲイン生成部133の中にあるフラグ及び雑音ゲイン集計器159に引き渡す一方、帯域1の残差信号を受け取らなかった場合には、何も行わない。フラグ及びゲイン生成部133の中の第2フラグ生成及び第2ゲイン算出器157は、帯域2の残差信号を受け取った場合には、帯域2が雑音帯域である旨を示すフラグを生成するとともに帯域2の残差信号のゲインを算出し、該フラグ及び該ゲインを同じくフラグ及びゲイン生成部133の中にあるフラグ及び雑音ゲイン集計器159に引き渡す一方、帯域2の残差信号を受け取らなかった場合には、何も行わない。帯域3以降についても同様である。
The first flag generator and first gain calculator 155 in the flag and gain generation unit 133 generates a flag indicating that the
各帯域のゲインは、残差信号の該帯域の成分の強度を表すものである。音声信号においては、一般に、帯域が異なればゲインも異なる値になる。ゲインは、後述の音声復号装置に伝えられる。すると、該装置により、元の残差信号の帯域毎の強度の違いが反映された音声信号が再生される。したがって、音声符号化装置111により帯域毎にゲインを求めておくことは、例えばゲインが帯域に依存しない一定値であるといった仮定を採る場合に比べて、後述の音声復号装置が高い品質の音声信号を再生するのに資する。なお、本実施形態においては、非雑音帯域における残差信号の性質については、数値で表される周波数変換係数として音声復号装置に伝達されるので、別途ゲインを求める必要はない。 The gain of each band represents the intensity of the component of the band of the residual signal. In the case of an audio signal, generally, the gain becomes a different value if the band is different. The gain is transmitted to a speech decoding device described later. Then, the apparatus reproduces an audio signal reflecting the difference in intensity of each band of the original residual signal. Therefore, obtaining the gain for each band by the speech encoding device 111 means that the speech decoding device, which will be described later, has a higher quality speech signal than when assuming that the gain is a constant value independent of the bandwidth. Contribute to playing. In the present embodiment, the characteristics of the residual signal in the non-noise band are transmitted to the speech decoding apparatus as frequency conversion coefficients represented by numerical values, so that it is not necessary to obtain a separate gain.
雑音判別部129及び符号化用Aスイッチ部131が上述のように動作することから、フラグ及び雑音ゲイン集計器159には、雑音帯域におけるフラグ及びゲインが集められる結果となる。これらの雑音帯域におけるフラグ及びゲインは、符号化部137に引き渡される。
Since the
集計変換部135の中の非雑音残差信号集計器161は、どの帯域の残差信号が符号化用Aスイッチ部131から引き渡されたかを把握するとともに、かかる帯域の残差信号だけを実時間領域において重ね合わせた信号を生成する。
The non-noise
雑音判別部129及び符号化用Aスイッチ部131が上述のように動作することから、非雑音残差信号集計器161が上述のように把握した帯域は、結果として、非雑音帯域である。同様に、非雑音残差信号集計器161が上述のように重ね合わせて生成した信号は、結果として、非雑音帯域における残差信号である。
Since the
非雑音帯域における残差信号は、非雑音残差信号集計器161から同じく集計変換部135の中のスペクトル変換器163に引き渡され、高速フーリエ変換(FFT、Fast Fourier Transform)、離散コサイン変換(DCT、Discrete Cosine Transform)、変形コサイン変換(MDCT、Modified Discrete Cosine Transform)等の周波数変換手法により、周波数変換係数に変換されてから、同じく集計変換部135の中の非雑音帯域切り出し器162に引き渡される。
The residual signal in the non-noise band is transferred from the non-noise
非雑音帯域切り出し器162には、非雑音残差信号集計器161が上述のように把握した、どの帯域が非雑音帯域であるか、という情報も引き渡される。非雑音帯域切り出し器162は、かかる情報を参照することにより、スペクトル変換器163から引き渡された周波数変換係数のうち、非雑音帯域における周波数変換係数だけを取り出して、符号化部137に引き渡す。つまり、符号化部137には、非雑音帯域における残差信号を周波数変換して得られた全帯域における周波数変換係数のうち、非雑音帯域における周波数変換係数だけが切り出されて引き渡される。
The non-noise band cutout unit 162 is also handed over information on which band is the non-noise band, as grasped by the non-noise
もっとも、雑音判別部129及び符号化用Aスイッチ部131が上述のように動作することから、非雑音残差信号集計器161が上述の重ね合わせにより生成した、非雑音帯域における残差信号は、元々、雑音帯域の成分を含まない。よって、原理的には、スペクトル変換器163が生成する周波数変換係数は、雑音帯域において数値0が並んだものとなる。したがって、非雑音帯域切り出し器162は、非雑音残差信号集計器161からの非雑音帯域に関する情報の引き渡しを受けずに、スペクトル変換器163から引き渡された周波数変換係数から値が0の係数を除去したものを符号化部137に引き渡すものであってもよい。ただし、帯域フィルタ部127の帯域フィルタとしての精度を考慮して、本実施形態においては、動作を確実なものとするために、非雑音帯域切り出し器162は周波数変換係数の切り出しにあたり非雑音帯域に関する情報を参照するものとする。
However, since the
符号化部137は、予測分析部125からは予測係数を、フラグ及びゲイン生成部133からは雑音帯域におけるフラグ及びゲインを、集計変換部135からは非雑音帯域における周波数変換係数を、受け取る。符号化部137はこれらをまとめて所定の符号化手法、例えばベクトル量子化手法やハフマン符号化手法、により符号化し、生成された符号を送信部139に引き渡す。
The
送信部139は、符号化部137から、予測係数、フラグ、ゲイン、及び、非雑音帯域における周波数変換係数、が符号化されたもの、を受け取り、これを、後述の実施形態4又は5に係る音声復号装置、あるいは、かかる音声復号装置として機能する、後述の実施形態6に係る他の音声符号化兼復号装置に向けて、送信する。送信方法は、本実施形態においては、無線通信であるとするが、他の、有線や、有線と無線の併用など、様々な通信方法であってもよい。
The
本実施形態に係る音声符号化装置111は、残差信号を複数の帯域に分割し、雑音帯域についてはその旨を示すフラグと、該帯域におけるゲインのみを送信対象とし、非雑音帯域については周波数変換係数を送信対象とすることにより、残差信号に関する情報の効率的な伝達と、再生音声の品質の確保と、を両立させることができる。 The speech encoding apparatus 111 according to the present embodiment divides the residual signal into a plurality of bands, and for the noise band, only the flag indicating that and the gain in the band are to be transmitted, and the frequency for the non-noise band By using the transform coefficient as a transmission target, it is possible to achieve both efficient transmission of information related to the residual signal and ensuring the quality of reproduced audio.
(実施形態2)
図2は、本実施形態に係る音声符号化装置113の機能構成図である。音声符号化装置113は、概ね、実施形態1に係る音声符号化装置111と同じ構成を有する。主な相違点は、符号化用Aスイッチ131が符号化用Cスイッチ部165に置き換えられていることと、それに伴い定電圧源(電圧VC)が設けられていることと、Band Elimination Filter169が設けられていることと、それに伴い集計変換部135としてまとめられていた部分が分解された上で構成要素の仕様が一部変更されていること、である。
(Embodiment 2)
FIG. 2 is a functional configuration diagram of the
実施形態1において雑音判別部129は符号化用Aスイッチ部131に切替命令を送っていたが、本実施形態においては、雑音判別部129は符号化用Cスイッチ部165に対して選択オン命令を送る。ここで、選択オン命令とは、帯域1についての場合であれば、帯域1の残差信号が雑音であると判別された場合には第1Cスイッチ171のc1を閉じd1を開き、帯域1の残差信号が雑音ではないと判別された場合には第1Cスイッチ171のc1を開きd1を閉じるように、第1Cスイッチ171を制御する命令である。そして、帯域2についての場合であれば、帯域2の残差信号が雑音であると判別された場合には第2Cスイッチ173のc2を閉じd2を開き、帯域2の残差信号が雑音ではないと判別された場合には第2Cスイッチ173のc2を開きd2を閉じるように、第2Cスイッチ173を制御する命令である。帯域3以降についての場合も同様である。
In the first embodiment, the
第1Cスイッチ171においてc1が閉じd1が開いた場合は、帯域1の残差信号がフラグ及びゲイン生成部133に引き渡されるが、非雑音帯域決定器167には電圧VCが印加されず、非雑音帯域決定器167は帯域1が雑音帯域である旨を記憶する。一方、第1Cスイッチ171においてc1が開きd1が閉じた場合は、帯域1の残差信号がフラグ及びゲイン生成部133に引き渡されず、非雑音帯域決定器167には電圧VCが印加され、非雑音帯域決定器167は帯域1が非雑音帯域である旨を記憶する。第2Cスイッチ173においてc2が閉じd2が開いた場合は、帯域2の残差信号がフラグ及びゲイン生成部133に引き渡されるが、非雑音帯域決定器167には電圧VCが印加されず、非雑音帯域決定器167は帯域2が雑音帯域である旨を記憶する。一方、第2Cスイッチ173においてc2が開きd2が閉じた場合は、帯域2の残差信号がフラグ及びゲイン生成部133に引き渡されず、非雑音帯域決定器167には電圧VCが印加され、非雑音帯域決定器167は帯域2が非雑音帯域である旨を記憶する。帯域3以降についても同様である。
When c1 is closed and d1 is opened in the
このように、定電圧源(電圧VC)は、非雑音帯域決定器167が、どの帯域が非雑音帯域であるかを把握するためのものである。図示した定電圧源は模式的なものであって、非雑音帯域決定器167によるかかる把握を可能にするものであれば他の機構のもので代用してよい。
Thus, the constant voltage source (voltage V C ) is used by the
非雑音帯域決定器167は、把握した非雑音帯域に関する情報を、実施形態1において非雑音残差信号集計器161が行ったのと同様に、非雑音帯域切り出し器162に引き渡す。
The
非雑音帯域決定器167はしかし、実施形態1における非雑音残差信号集計器161とは異なり、非雑音帯域の残差信号を受け取っていない。本実施形態においては、スペクトル変換器163が非雑音帯域の残差信号を取得するために、まず残差信号全体が予測分析部125からBand Elimination Filter169に引き渡される。非雑音帯域決定器167はどの帯域が非雑音帯域であるかを把握しているのであるから、逆に、どの帯域が雑音帯域であるかを把握しているともいえる。そこで、非雑音帯域決定器167は、かかる雑音帯域、すなわちスペクトル変換器163に残差信号が入力される前に削除されておくべき帯域を、Band Elimination Filter169に一括して指定する命令を送る。Band Elimination Filter169は、削除すべき帯域を自在に選択設定することができるフィルタであり、本実施形態においては、前記命令にしたがって、予測分析部125から引き渡された残差信号のうち削除すべき帯域を削除した上で、スペクトル変換器163に引き渡す。
However, unlike the non-noise
本実施形態は、実施形態1の変形例といえる。ただし、本実施形態においては、実施形態1の場合と異なり、スペクトル変換器163に入力される非雑音残差信号として、帯域フィルタ部127を経由したものを用いずに、Band Elimination Filter169を経由したものを用いている。したがって、帯域フィルタ部127で使用される多数の帯域フィルタに比べフィルタとしての性能が高いBand Elimination Filterが1個だけでも入手できる場合には、本実施形態を採用する方が、実施形態1の場合に比べて非雑音帯域における周波数変換係数が高い精度で求まるという利点がある。また、実施形態1の場合、非雑音残差信号集計器161が非雑音帯域の残差信号の重ね合わせ処理を行う際に誤差が生じ得るが、本実施形態の場合にはかかる重ね合わせ処理がないので、この点でも、周波数変換係数がより高い精度で求まると期待される。
This embodiment can be said to be a modification of the first embodiment. However, in the present embodiment, unlike the case of the first embodiment, the non-noise residual signal input to the
(実施形態3)
図3は、本実施形態に係る音声符号化装置115の機能構成図である。音声符号化装置115は、実施形態1に係る音声符号化装置111に類似した構成を有するが、符号化用Aスイッチ131が符号化用Eスイッチ部177に置き換えられている点と、集計変換部135としてまとめられていた部分が完全に分解された上でスペクトル変換器163を除く構成要素の仕様が一部変更されている点と、において相違する。
(Embodiment 3)
FIG. 3 is a functional configuration diagram of the
本実施形態においては、予測分析部125からの残差信号が直接にスペクトル変換器163に引き渡される。そして、スペクトル変換器163は、先の2つの実施形態の場合と異なり、引き渡された残差信号に雑音帯域が含まれているか否かには拘泥せずに、残差信号全体から周波数変換係数を求める。
In the present embodiment, the residual signal from the
求まった周波数変換係数は、周波数変換係数切り分け器175に引き渡される。この周波数変換係数切り分け器175は、先の2つの実施形態における非雑音帯域切り出し器162と比べ、受け取った周波数変換係数を所定の帯域に対応づける点において似ている。しかし、後者が非雑音帯域に属する周波数変換係数を削除するのに対して、前者は周波数変換係数の全てを所定の複数の帯域に分類するだけであって、帯域1における周波数変換係数、帯域2における周波数変換係数、・・・、のように結局全ての周波数変換係数を出力する点が異なる。
The obtained frequency conversion coefficient is delivered to the frequency conversion coefficient discriminator 175. The frequency conversion coefficient discriminator 175 is similar to the non-noise band cutout unit 162 in the previous two embodiments in that the received frequency conversion coefficient is associated with a predetermined band. However, while the latter deletes the frequency conversion coefficients belonging to the non-noise band, the former only classifies all the frequency conversion coefficients into a plurality of predetermined bands, and the frequency conversion coefficient in
周波数変換係数切り分け器175から出力された帯域1の周波数変換係数が伝送される信号線は、符号化用Eスイッチ部177の中の第1Eスイッチ181に接続され、帯域2の周波数変換係数が伝送される信号線は第2Eスイッチ183に接続されている。帯域3以降についても同様である。
The signal line for transmitting the frequency conversion coefficient of
実施形態1において雑音判別部129は符号化用Aスイッチ部131に切替命令を送っていたが、本実施形態においては、雑音判別部129は符号化用Eスイッチ部177に対して選択オン命令を送る。ここで、選択オン命令とは、帯域1についての場合であれば、帯域1の残差信号が雑音であると判別された場合には第1Eスイッチ181のe1を閉じf1を開き、帯域1の残差信号が雑音ではないと判別された場合には第1Eスイッチ181のe1を開きf1を閉じるように、第1Eスイッチ181を制御する命令である。そして、帯域2についての場合であれば、帯域2の残差信号が雑音であると判別された場合には第2Eスイッチ183のe2を閉じf2を開き、帯域2の残差信号が雑音ではないと判別された場合には第2Eスイッチ183のe2を開きf2を閉じるように、第2Eスイッチ183を制御する命令である。帯域3以降についての場合も同様である。
In the first embodiment, the
第1Eスイッチ181においてe1が閉じf1が開いた場合は、帯域1の残差信号がフラグ及びゲイン生成部133に引き渡されるが、非雑音周波数変換係数集計器179には帯域1における周波数変換係数が引き渡されず、非雑音周波数変換係数集計器179は帯域1における周波数変換係数を記憶しない。一方、第1Eスイッチ181においてe1が開きf1が閉じた場合は、帯域1の残差信号はフラグ及びゲイン生成部133に引き渡されず、非雑音周波数変換係数集計器179には帯域1における周波数変換係数が引き渡され、非雑音周波数変換係数集計器179は帯域1における周波数変換係数を記憶する。第2Eスイッチ183においてe2が閉じf2が開いた場合は、帯域2における残差信号がフラグ及びゲイン生成部133に引き渡されるが、非雑音周波数変換係数集計器179には帯域2の周波数変換係数が引き渡されず、非雑音周波数変換係数集計器179は帯域2における周波数変換係数を記憶しない。一方、第2Eスイッチ183においてe2が開きf2が閉じた場合は、帯域2の残差信号はフラグ及びゲイン生成部133に引き渡されず、非雑音周波数変換係数集計器179には帯域2における周波数変換係数が引き渡され、非雑音周波数変換係数集計器179は帯域2における周波数変換係数を記憶する。帯域3以降についても同様である。
When e1 is closed and f1 is opened in the first E switch 181, the residual signal of
この結果、非雑音周波数変換係数集計器179には、非雑音帯域における周波数変換係数が集計され記憶される。非雑音周波数変換係数集計器179は、かかる周波数変換係数を符号化部137に引き渡す。
As a result, the non-noise frequency conversion coefficient totalizer 179 counts and stores frequency conversion coefficients in the non-noise band. The non-noise frequency conversion coefficient totalizer 179 passes the frequency conversion coefficient to the
本実施形態に係る音声符号化装置115が符号化の対象とするものは、先の2つの実施形態に係る音声符号化装置111及び音声符号化装置113が符号化の対象とするものと同じである。
What the
ただし、本実施形態の場合、残差信号を帯域別残差信号に分割する前に周波数変換係数を全帯域に渡って一括して求める。よって、実施形態1の場合と異なり、周波数変換係数が、帯域フィルタ部127の性能とは関係なく、高精度で求まる。また、本実施形態においては、周波数変換係数は、実施形態1における非雑音残差信号集計器161(図1)での信号の重ね合わせ処理に伴う誤差の影響も受けずに、高精度で求まる。さらに、実施形態2と比較しても、本実施形態においては、周波数変換係数が、Band Elimination Filterの性能とは関係なく、高精度で求まる。
However, in the case of the present embodiment, the frequency conversion coefficient is obtained collectively over the entire band before the residual signal is divided into the band-specific residual signals. Therefore, unlike the case of the first embodiment, the frequency conversion coefficient can be obtained with high accuracy regardless of the performance of the
(実施形態4)
図4は、本実施形態に係る音声復号装置211の機能構成図である。
(Embodiment 4)
FIG. 4 is a functional configuration diagram of the
音声復号装置211は、図示するように、受信部221と、復号部223と、フラグ存否判別部225と、復号用Gスイッチ部227と、帯域別雑音列生成部229と、集計逆変換部231と、残差信号復元部233と、合成用フィルタ算出部235と、合成用フィルタ部237と、D/A変換部239と、スピーカ241と、を備える。
As shown in the figure, the
フラグ存否判別部225は、第1フラグ存否判別器243と、第2フラグ存否判別器245と、図4では省略するが、第3フラグ存否判別器以降の必要なフラグ存否判別器と、を備える。
The flag presence /
復号用Gスイッチ部227は、第1Gスイッチ247と、第2Gスイッチ249と、図4では省略するが、第3Gスイッチ以降の必要なGスイッチと、を備える。
The decoding
帯域別雑音列生成部229は、第1雑音列生成器251と、第2雑音列生成器253と、図4では省略するが、第3雑音列生成器以降の必要な雑音列生成器と、を備える。
The band-specific noise
集計逆変換部231は、周波数変換係数集計及び補充器255と、スペクトル逆変換器257と、を備える。
The tabulation
受信部221は、実施形態1係る音声符号化装置111(図1)や、実施形態2に係る音声符号化装置113(図2)や、実施形態3に係る音声符号化装置115(図3)が、送信部139から無線通信手段等により送信した符号を受け取り、復号部223に引き渡す。かかる符号は、予測係数、フラグ、ゲイン、及び、非雑音帯域における周波数変換係数、が符号化されたものである。
The receiving
復号部223は、受信部221から引き渡された符号を復号して、上述のように変数i(0≦i≦M-1)により識別した各時間区分における、予測係数と、フラグと、ゲインと、非雑音帯域における周波数変換係数と、を生成する。
The
復号部223は、生成した予測係数を、合成用フィルタ算出部235に引き渡す。それとともに、復号部223は、生成したフラグとゲインと非雑音帯域における周波数変換係数とを、帯域毎の情報として、フラグ存否判別部225及び復号用Gスイッチ部227に引き渡す。概ね、各帯域の情報のうちフラグの有無に関する情報がフラグ存否判別部225に引き渡され、各帯域の情報のうちフラグ以外に関する情報が復号用Gスイッチ部227に引き渡される。
The
なお、フラグ、ゲイン、周波数変換係数は、帯域毎にみると、復号部223により生成されていたり生成されていなかったりする。つまり、音声符号化装置111(図1)等の送信側の装置において、雑音帯域についてのみフラグとゲインが生成され符号化され、かつ、非雑音帯域についてのみ周波数変換係数が生成され符号化されているので、受信側の装置である本実施形態に係る音声復号装置211の中で復号部223による復号が行われても、雑音帯域における周波数変換係数や、非雑音帯域におけるフラグ及びゲインは、生成されることはない。
Note that the flag, gain, and frequency conversion coefficient may or may not be generated by the
復号部223の役割のひとつは、帯域1の情報のうち、帯域1におけるフラグの有無を、フラグ存否判別部225の中の第1フラグ存否判別器243に通知することである。より正確には、復号部223は、帯域1におけるフラグが生成された場合にはその旨を第1フラグ存否判別器243に通知し、帯域1におけるフラグが生成されなかった場合には第1フラグ存否判別器243に何らの通知も行わない。帯域2については、復号部223は、帯域2におけるフラグが生成された場合にはその旨を第2フラグ存否判別器245に通知し、帯域2におけるフラグが生成されなかった場合には第2フラグ存否判別器245に何らの通知も行わない。帯域3以降についても同様である。
One of the roles of the
復号部223はまた、帯域1の情報のうち、フラグ以外の情報、すなわち、帯域1が雑音帯域であった場合には帯域1におけるゲイン、帯域1が非雑音帯域であった場合には帯域1における周波数変換係数、を、復号用Gスイッチ部227の中の第1Gスイッチ247に通知する。帯域2については、フラグ以外の情報、すなわち、帯域2が雑音帯域であった場合には帯域2におけるゲイン、帯域2が非雑音帯域であった場合には帯域2における周波数変換係数、を、復号用Gスイッチ部227の中の第2Gスイッチ249に通知する。帯域3以降についても、同様である。
The
第1フラグ存否判別器243は、復号部223から帯域1のフラグが生成された旨の通知を受けたか否かを判別し、第1Gスイッチ151に対して切替命令を送る。ここで、切替命令とは、帯域1のフラグが生成された旨の通知を受けたと判別された場合には第1Gスイッチ247をg1側に閉じ、帯域1のフラグが生成された旨の通知を受けなかったと判別された場合には第1Gスイッチをh1側に閉じるように、第1Gスイッチ247を制御する命令である。第2フラグ存否判別器245は、復号部223から帯域2のフラグが生成された旨の通知を受けたか否かを判別し、第2Gスイッチ249に対して切替命令を送る。ここで、切替命令とは、帯域2のフラグが生成された旨の通知を受けたと判別された場合には第2Gスイッチ249をg2側に閉じ、帯域2のフラグが生成された旨の通知を受けなかったと判別された場合には第2Gスイッチをh2側に閉じるように、第2Gスイッチ249を制御する命令である。帯域3以降についても同様である。
The first flag presence / absence discriminator 243 determines whether or not a notification indicating that the
第1Gスイッチ247がg1側に閉じた場合は、帯域別雑音列生成部229の中の第1雑音列生成器251に、帯域1のゲインが届けられる。なぜならば、第1Gスイッチ247がg1側に閉じたということは、上述の通り、第1フラグ存否判別器243が帯域1におけるフラグの存在を検知したからであり、かかるフラグが存在する以上、復号部223は帯域1において周波数変換係数ではなくゲインを復号したことになり、したがって、復号部223から帯域1の情報として第1Gスイッチ247に通知されるのは周波数変換係数ではなくゲインだったということであり、ゆえに、第1Gスイッチ247がg1側に閉じたことにより復号部223と第1雑音列生成器251との間で接続された信号線を流れる情報は帯域1のゲインということになるからである。
When the
一方、第1Gスイッチ247がh1側に閉じた場合は、集計逆変換部231の中の周波数変換係数集計及び補充器255に、帯域1における周波数変換係数が届けられる。なぜならば、第1Gスイッチ247がh1側に閉じたということは、上述の通り、第1フラグ存否判別器243が帯域1におけるフラグの不在を検知したからであり、かかるフラグが存在しない以上、復号部223は帯域1においてゲインではなく周波数変換係数を復号したことになり、したがって、復号部223から帯域1の情報として第1Gスイッチ247に通知されるのはゲインではなく周波数変換係数だったということであり、ゆえに、第1Gスイッチ247がh1側に閉じたことにより復号部223と周波数変換係数集計及び補充器255との間で接続された信号線を流れる情報は帯域1における周波数変換係数ということになるからである。
On the other hand, when the
同様に、第2Gスイッチ249がg2側に閉じた場合は、帯域別雑音列生成部229の中の第2雑音列生成器253に、帯域2のゲインが届けられる。なぜならば、第2Gスイッチ249がg2側に閉じたということは、上述の通り、第2フラグ存否判別器245が帯域2におけるフラグの存在を検知したからであり、かかるフラグが存在する以上、復号部223は帯域2において周波数変換係数ではなくゲインを復号したことになり、したがって、復号部223から帯域2の情報として第2Gスイッチ249に通知されるのは周波数変換係数ではなくゲインだったということであり、ゆえに、第2Gスイッチ249がg2側に閉じたことにより復号部223と第2雑音列生成器253との間で接続された信号線を流れる情報は帯域2のゲインということになるからである。
Similarly, when the
一方、第2Gスイッチ249がh2側に閉じた場合は、集計逆変換部231の中の周波数変換係数集計及び補充器255に、帯域2における周波数変換係数が届けられる。なぜならば、第2Gスイッチ249がh2側に閉じたということは、上述の通り、第2フラグ存否判別器245が帯域2におけるフラグの不在を検知したからであり、かかるフラグが存在しない以上、復号部223は帯域2においてゲインではなく周波数変換係数を復号したことになり、したがって、復号部223から帯域2の情報として第1Gスイッチに通知されるのはゲインではなく周波数変換係数だったということであり、ゆえに、第2Gスイッチ249がh2側に閉じたことにより復号部223と周波数変換係数集計及び補充器255との間で接続された信号線を流れる情報は帯域2における周波数変換係数ということになるからである。
On the other hand, when the
帯域3以降についても同様である。 The same applies to bands 3 and after.
帯域別雑音列生成部229の中の第1雑音列生成器251は、帯域1のゲインを受け取った場合には、内蔵のホワイトノイズ生成器(図示せず。)と、ホワイトノイズから帯域1の信号を取り出す内蔵の帯域フィルタ(図示せず。)と、受け取ったゲインの通りに信号の振幅を調整する内蔵の乗算器(図示せず。)と、により、帯域1の雑音列を生成し、残差信号復元部233に引き渡す一方、帯域1のゲインを受け取らなかった場合には、何も行わない。
When receiving the gain of
帯域別雑音列生成部229の中の第2雑音列生成器253は、帯域2のゲインを受け取った場合には、内蔵のホワイトノイズ生成器(図示せず。)と、ホワイトノイズから帯域2の信号を取り出す内蔵の帯域フィルタ(図示せず。)と、受け取ったゲインの通りに信号の振幅を調整する内蔵の乗算器(図示せず。)と、により、帯域2の雑音列を生成し、残差信号復元部233に引き渡す一方、帯域2のゲインを受け取らなかった場合には、何も行わない。
When the second
帯域3以降についても同様である。 The same applies to bands 3 and after.
フラグ存否判別部225及び復号用Gスイッチ部227が上述のように動作することから、残差信号復元部233には、雑音帯域における残差信号として妥当と考えられる信号が、全ての雑音帯域に渡って、入力されることになる。ここで「妥当」という表現を用いているのは、次の理由による。すなわち、実施形態1に係る音声符号化装置111(図1)等の送信側の装置では雑音帯域における残差信号をゲインという量だけにより特徴づけて、かかるゲインだけを受信側の装置である本実施形態に係る音声復号装置211に伝達した。よって、音声復号装置211は、雑音帯域における残差信号を完全に復元することはできず、ゲインという量だけしか通知されていない状況においては最も適切な残差信号、つまり妥当と考えられる信号、あるいは擬似的な残差信号、を生成したといえるからである。
Since the flag presence /
集計逆変換部231の中の周波数変換係数集計及び補充器255は、帯域1における周波数変換係数を受け取った場合には、それを記憶する一方、帯域1の周波数変換係数を受け取らなかった場合には、帯域1における周波数変換係数を全て0とし、それを記憶する。集計逆変換部231の中の周波数変換係数集計及び補充器255は、帯域2における周波数変換係数を受け取った場合には、それを記憶する一方、帯域2の周波数変換係数を受け取らなかった場合には、帯域2における周波数変換係数を全て0とし、それを記憶する。帯域3以降についても同様である。
The frequency conversion coefficient totaling and
周波数変換係数集計及び補充器255は、このように、周波数変換係数を受け取った帯域については、かかる周波数変換係数をそのまま記憶し、周波数変換係数を受け取らなかった帯域については、周波数変換係数として0を補充して記憶することにより、欠落した帯域のない周波数変換係数を生成したことになる。周波数変換係数集計及び補充器255は、かかる周波数変換係数を、同じく集計逆変換部231の中にあるスペクトル逆変換器257に引き渡す。スペクトル逆変換器257は、実施形態1に係る音声符号化装置111(図1)等の送信側の装置の中のスペクトル変換器163において用いられた所定の周波数変換手法と対をなす逆変換手法を用いて、引き渡された周波数変換係数から実時間領域の信号に逆変換する。スペクトル変換器163が受け取る周波数変換係数には、上述の通り、欠落がないため、前記逆変換は円滑に行われる。スペクトル逆変換器257は、かかる実時間領域の信号を残差信号復元部233に引き渡す。
In this way, the frequency conversion coefficient totaling and supplementing
フラグ存否判別部225及び復号用Gスイッチ部227が上述のように動作することから、スペクトル逆変換器257から残差信号復元部233に引き渡された実時間領域の信号は、非雑音帯域における復元残差信号である。
Since the flag presence /
以上から、残差信号復元部233には、帯域別雑音列生成部229からは上述の通り擬似的なものとはいえ雑音帯域における残差信号が引き渡され、集計逆変換部231からは非雑音帯域における復元残差信号が引き渡されるので、結局、全帯域における残差信号が引き渡されることになる。残差信号復元部233は、これら各帯域の残差信号を重ね合わせることにより、復元残差信号D'i={d'i、0、・・・、d'i、l-1}(0≦i≦M-1)を生成する。生成された復元残差信号は、合成用フィルタ部237に引き渡される。
From the above, the residual signal in the noise band is handed over to the residual
合成用フィルタ算出部235には、復号部223から予測係数が引き渡される。合成用フィルタ算出部235は、引き渡された予測係数に基づいて、任意の既知の手法により、合成用フィルタの仕様を決定し、かかる決定の結果を合成用フィルタ部237に通知する。合成用フィルタ部237は、かかる通知に従って、自らの仕様を定める。
The prediction coefficient is delivered from the
合成用フィルタ部237には、残差信号復元部233からの復元残差信号が、励起信号として入力される。なお、既に述べたように、残差信号と励起信号とは、同じ信号を別の視点からみたものにすぎない。かかる励起信号の入力の結果、合成用フィルタ部237からは復元されたデジタル音声信号が生成される。該信号はD/A変換部239によりアナログ音声信号に変換された後、スピーカ241に送られる。こうして、スピーカ241からは、復元された音声信号が、人間の耳に聞こえる態様にて発せられる。
The restoration residual signal from the residual
(実施形態5)
図5は、本実施形態に係る音声復号装置213の機能構成図である。
(Embodiment 5)
FIG. 5 is a functional configuration diagram of the
本実施形態は、実施形態4の変形例である。すなわち、実施形態4においては、雑音帯域毎に実時間信号を生成していたのに対して、本実施形態においては、雑音帯域のゲインに合わせて周波数変換係数を生成してから、非雑音帯域の周波数変換係数とともに一括して実時間領域への逆変換を行う。 This embodiment is a modification of the fourth embodiment. That is, in the fourth embodiment, a real-time signal is generated for each noise band. In the present embodiment, a frequency conversion coefficient is generated in accordance with the gain of the noise band, and then the non-noise band is generated. Reverse conversion to the real time domain is performed together with the frequency conversion coefficient.
本実施形態に係る音声復号装置213は、実施形態4に係る音声復号装置211(図4)と比較すると、帯域別雑音列生成部229(図4)を帯域別定数周波数変換係数生成部259に置換し、復号用Gスイッチ部227の下流の信号線の構成を一部変更し、集計逆変換部231(図4)を一括集計逆変換部261に置換し、残差信号復元部233が省略された構成となっている。
Compared with the speech decoding apparatus 211 (FIG. 4) according to the fourth embodiment, the
帯域別定数周波数変換係数生成部259の中の第1定数周波数変換係数生成器263は、帯域1のゲインを受け取った場合には、まず帯域1における周波数変換係数として周波数変換係数の単位量が並んだものを生成し、次いで、該ゲインを乗じて、帯域1における周波数変換係数を生成して、一括集計逆変換部261の中の周波数変換係数集計器267に引き渡す一方、帯域1のゲインを受け取らなかった場合には、何らの動作も行わない。
When the first constant frequency
帯域別定数周波数変換係数生成部259の中の第2定数周波数変換係数生成器265は、帯域2のゲインを受け取った場合には、まず帯域2における周波数変換係数として周波数変換係数の単位量が並んだものを生成し、次いで、該ゲインを乗じて、帯域2における周波数変換係数を生成して、一括集計逆変換部261の中の周波数変換係数集計器267に引き渡す一方、帯域2のゲインを受け取らなかった場合には、何らの動作も行わない。
When the second constant frequency
帯域3以降についても同様である。 The same applies to bands 3 and after.
復号用Gスイッチ部227と一括集計逆変換部261とを結ぶ信号線に、図5においてg’1やg’2で示される接続部が設けられているために、上述の周波数変換係数の引き渡しが可能となる。なお、第1Gスイッチ247においてスイッチはg1とh1の何れか一方側のみに閉じ、第2Gスイッチ249においてスイッチはg2とh2の何れか一方側にのみ閉じるから、接続部g’1やg’2には、復号用Gスイッチ部227からの信号又は帯域別定数周波数変換係数生成部259からの信号の何れか一方だけが流入するのであり、かかる2種類の信号が混じり合うことはない。
Since the signal line connecting the decoding
一括集計逆変換部261の中の周波数変換係数集計器267は、実施形態4に係る音声復号装置211(図4)における集計逆変換部231の中の周波数変換係数集計及び補充器255とよく似た機能を有する。実施形態4における周波数変換係数集計及び補充器255(図4)は、欠落した帯域を補うために、数値0から構成される周波数変換係数を生成する必要があった。
The frequency
しかし、本実施形態の場合、フラグ存否判別部225、復号用Gスイッチ部227、及び、帯域別定数周波数変換係数生成部259、の動作から明らかなように、周波数変換係数集計器267は受け取った変換係数を単に記憶するだけの動作により、欠落した帯域のない周波数変換係数を生成してスペクトル逆変換器257による逆変換に供することができる。
However, in the case of the present embodiment, the frequency
フラグ存否判別部225、復号用Gスイッチ部227、及び、帯域別定数周波数変換係数生成部259、の動作から明らかなように、一括集計逆変換部261の中のスペクトル逆変換器257が生成した残差信号は、雑音帯域と非雑音帯域の両成分を既に含んでいる。
As is apparent from the operations of the flag presence /
よって、かかる残差信号は、そのまま復元残差信号、又は、励起用の信号として、合成用フィルタ部237に引き渡してよい。本実施形態の場合は、実施形態4において雑音帯域の成分と非雑音帯域の成分とを重ね合わせて復元残差信号を生成するために用いられた残差信号復元部233(図4)は不要である。
Therefore, the residual signal may be delivered to the
このように、本実施形態は原理的には実施形態4と同様の動作を行う。ただし、実施形態4においては帯域別雑音列生成部229(図4)の中にホワイトノイズ発生源や帯域フィルタ(いずれも図示せず。)が必要であるのに対して、本実施形態においてはかかる部材が不要であるので、より簡易である。 Thus, the present embodiment performs the same operation as that of the fourth embodiment in principle. However, in the fourth embodiment, a white noise generation source and a band filter (both not shown) are necessary in the band-specific noise string generation unit 229 (FIG. 4). Since such a member is unnecessary, it is simpler.
(実施形態6)
図6は、本実施形態に係る音声符号化兼復号装置311を示したものである。ここまで機能構成図である図1乃至図5を参照して説明してきた実施形態1乃至実施形態5に係る音声符号化装置111、音声符号化装置113、音声符号化装置115、音声復号装置211、音声復号装置213、は、物理的には、使い勝手の観点から両種の装置の機能を統合した、本実施形態に係る音声符号化兼復号装置311により実現される。以下では、音声符号化兼復号装置311として携帯電話機を想定して説明する。
(Embodiment 6)
FIG. 6 shows a speech encoding /
音声符号化兼復号装置311は、図1乃至図3で既に示してあるマイクロフォン121と、図4及び図5で既に示してあるスピーカ241と、を備える。該装置は、アンテナ335と、操作キー337と、をさらに備える。該装置は、システムバス333により相互に接続された、CPU321と、ROM(Read Only Memory)323と、記憶部325と、音声処理部329と、無線通信部327と、操作キー入力処理部331と、をさらに備える。記憶部325は、例えば、RAM(Random Access Memory)339と、ハードディスク341と、を備える。音声符号化兼復号装置311は、図6に示したものの他にも、例えば、実施形態2に示したBand Elimination Filter169を、別途、専用ハードウェアとして備える等してもよい。
The speech encoding /
ROM323には、音声符号化及び復号のための動作プログラムが格納されている。CPU321は、該動作プログラムに従って動作する。そして、CPU321は、内蔵のレジスタ(図示せず。)と記憶部325との間で適宜データのやりとりを行いながら、数値演算により、音声符号化兼復号装置311に、図1乃至図5に示す音声符号化装置111、音声符号化装置113、音声符号化装置115、音声復号装置211、音声復号装置213、としての機能を発揮させる。CPU321は、その際、必要に応じて音声処理部329、無線通信部327、操作キー入力処理部331とデータのやりとりを行う。
The
図6の音声処理部329は、図1乃至図3のA/D変換部123、及び、図4及び図5のD/A変換部239として動作することができる。無線通信部327は、図1乃至図3の送信部139、及び、図4及び図5の受信部221として動作することができる。符号の送受信は、基本的には、図6のアンテナ335を用いた無線通信により行われるが、別の方法、例えば有線通信により行われてもよい。操作キー入力処理部331は、操作キー337からの操作信号を受け付けて、操作信号に対応するキーコード信号をCPU321に伝達する。操作キー337は、通信の相手方となる音声符号化兼復号装置311を特定する、すなわちいわゆる電話番号を入力するのに使われる他、基本的には設定済みの各種事項をユーザの好みに応じて変化させるために用いられてもよい。
The
(予測分析の手順)
以下では、図1乃至図3の予測分析部125が行う予測分析について、図7に示すフローチャートを参照しつつ説明する。予測分析としては、例えば、線型予測分析やMLSA(Mel Log Spectrum Approximation)分析が知られている。図7では、後者を括弧書きにして、両分析が併記されている。
(Predictive analysis procedure)
Hereinafter, the prediction analysis performed by the
記憶部325(図6)には、既に、デジタル音声信号(入力波形)Si={si、0、・・・、si、l−1}(0≦i≦M-1)が格納されているとする。CPU321(図6)は、内蔵のカウンタレジスタ(図示せず)を入力信号サンプルカウンタiの格納に用いることとし、初期値として、i=0とする(図7のステップS411)。 The storage unit 325 (FIG. 6) already stores digital audio signals (input waveforms) S i = {s i, 0 ,..., S i, l−1 } (0 ≦ i ≦ M−1). Suppose that The CPU 321 (FIG. 6) uses a built-in counter register (not shown) for storing the input signal sample counter i, and sets i = 0 as an initial value (step S411 in FIG. 7).
CPU321は、内蔵の汎用レジスタ(図示せず)に、記憶部325から、入力信号サンプルSi={si、0、・・・、si、l-1}をロードする(図7のステップS413)。
The
CPU321は、線型予測分析の場合は、入力信号サンプルSiから、線型予測係数Ai={ai、1、・・・、ai、n}を計算する(ステップS415)。ただし、nは線型予測分析の次数である。計算方法としては、残差信号が所定の尺度に基づき十分に小さいと評価されることになるような計算方法であれば、任意の既知の手法を採用してよい。例えば、よく知られている、自己相関関数の計算とレビンソン・ダービンアルゴリズムを組み合わせた計算方法を採用するのが好適である。
In the case of linear prediction analysis, the
CPU321は、MLSA分析の場合は、入力信号サンプルSiから、まず、ケプストラムCi={ci、0、・・・、ci、(l/2)-1}を計算する。かかる計算には、任意の既知の手法を採用してよい。どの手法においても、概ね、離散フーリエ変換をする、絶対値をとる、対数をとる、逆離散フーリエ変換をする、といった手続が行われる。次に、求めたケプストラムCiから、任意の既知の手法により、MLSAフィルタ係数Mi={mi、0、・・・、mi、p-1}を計算する(ステップS415)。
In the case of MLSA analysis, the
線型予測分析の場合は線型予測係数Ai={ai、1、・・・、ai、n}が、MLSA分析の場合はMLSAフィルタ係数Mi={mi、0、・・・、mi、p-1}が、記憶部325に予測係数として記憶される(ステップS417)。 In the case of linear prediction analysis, linear prediction coefficient A i = {a i, 1 ,..., A i, n }, and in the case of MLSA analysis, MLSA filter coefficient M i = {m i, 0 ,. m i, p-1 } is stored as a prediction coefficient in the storage unit 325 (step S417).
続いて、線型予測分析の場合、線型予測係数Aiから、任意の既知の手法により、予測分析用逆線型予測フィルタAIAiが計算され、MLSA分析の場合、MLSAフィルタ係数Miから、任意の既知の手法により、予測分析用逆MLSAフィルタAIMiが計算される(ステップS419)。これらの計算は、図1及び図2の予測分析用逆フィルタ算出器141が行う計算に相当する。
Subsequently, in the case of linear prediction analysis, an inverse prediction filter AIA i for prediction analysis is calculated from the linear prediction coefficient A i by an arbitrary known method. In the case of MLSA analysis, an arbitrary linear prediction filter A i is calculated from the MLSA filter coefficient M i . An inverse MLSA filter AIM i for prediction analysis is calculated by a known method (step S419). These calculations correspond to the calculations performed by the prediction analysis
求めた予測分析用逆線型予測フィルタAIAi又は予測分析用逆MLSAフィルタAIMiに入力信号サンプルSi={si、0、・・・、si、l-1}が通されることにより、残差信号Di={di、0、・・・、di、l-1}が求まる(図7のステップS421)。残差信号Diは記憶部325に記憶される(ステップS423)。 By passing the input signal samples S i = {s i, 0 ,..., S i, l-1 } through the obtained prediction analysis inverse linear prediction filter AIA i or prediction analysis inverse MLSA filter AIM i , Residual signal D i = {d i, 0 ,..., D i, l−1 } is obtained (step S421 in FIG. 7). The residual signal D i is stored in the storage unit 325 (step S423).
ここで、入力信号サンプルカウンタiがM-1に達しているか否かが判別される(ステップS425)。達していれば(ステップS425;Yes)、終了する。一方、達していなければ(ステップS425;No)、次の時間区間の入力信号サンプルについての処理を行うために、iを1だけインクリメントし(ステップS427)、ステップS413以降の処理を繰り返す。 Here, it is determined whether or not the input signal sample counter i has reached M−1 (step S425). If it has been reached (step S425; Yes), the process ends. On the other hand, if not reached (step S425; No), i is incremented by 1 (step S427) in order to perform processing on the input signal sample in the next time interval, and the processing after step S413 is repeated.
(残差信号からフラグ等を生成する手順)
以下では、実施形態1乃至実施形態3に係る音声符号化装置111、音声符号化装置113、音声符号化装置115、が行う、残差信号からフラグ、ゲイン、及び、周波数変換係数、を生成する手順を説明する。
(Procedure for generating flags etc. from residual signal)
In the following, a flag, a gain, and a frequency conversion coefficient are generated from the residual signal, which is performed by the speech encoding device 111, the
なお、前提として、A/D変換部123(図1乃至図3)によりデジタル音声信号(入力信号)Si={si、0、・・・、si、l-1}(0≦i≦M-1)が既に求められて記憶部325(図6)に格納されているものとし、かつ、該信号を受け取った予測分析部125(図1乃至3)により既に予測係数及び残差信号Di={di、0、・・・、di、l-1}}(0≦i≦M-1)も求められていて、これらの係数及び残差信号も記憶部325に格納されているものとする。
As a premise, the digital audio signal (input signal) S i = {s i, 0 ,..., Si , l−1 } (0 ≦ i) by the A / D converter 123 (FIGS. 1 to 3). ≦ M−1) is already obtained and stored in the storage unit 325 (FIG. 6), and the prediction analysis unit 125 (FIGS. 1 to 3) that has received the signal has already predicted the coefficient and the residual signal. D i = {d i, 0 ,..., D i, l-1 }} (0 ≦ i ≦ M−1) is also obtained, and these coefficients and residual signals are also stored in the
まず、実施形態1に係る音声符号化装置111(図1)が行う処理の手順を、図8及び図9に示すフローチャートを参照しつつ説明する。 First, the procedure of the process performed by the speech encoding apparatus 111 (FIG. 1) according to the first embodiment will be described with reference to the flowcharts shown in FIGS.
CPU321(図6)は、内蔵のカウンタレジスタ(図示せず。)において、入力信号サンプルカウンタiを、i=0に設定する(図8のステップS431)。 The CPU 321 (FIG. 6) sets an input signal sample counter i to i = 0 in a built-in counter register (not shown) (step S431 in FIG. 8).
CPU321は、内蔵の汎用レジスタ(図示せず。)に、記憶部325(図6)から、残差信号Di={di、0、・・・、di、l-1}をロードする(図8のステップS433)。
The
CPU321は、カウンタレジスタにおいて、帯域識別変数ωを、ω=1に設定する(ステップS435)。
In the counter register, the
CPU321は、帯域フィルタ部127(図1)として機能することにより、帯域ωの残差信号Di、ω={di、ω、0、・・・、di、ω、l-1}を生成する(図8のステップS437)。
The
CPU321は、雑音判別部129(図1)として機能することにより、Di、ωが雑音であるか否かを判別する(ステップS439)。Di、ωが雑音であると判別された場合には(ステップS439;Yes)、CPU321はフラグ及びゲイン生成部133(図1)として機能することにより、帯域ωにおけるフラグFlagi、ωの生成、及び、帯域ωにおけるゲインGi、ωの算出、を行う(図8のステップS441)。
The
かかるFlagi、ω及びゲインGi、ωが記憶部に格納されてから(ステップS443)、ステップS447に進む。Di、ωが雑音ではないと判別された場合には(ステップS439;No)、CPU321は集計変換部135(図1)として機能することにより、Di、ωを記憶部325に格納してから(図8のステップS445)、ステップS447に進む。
After the Flag i, ω and the gains G i, ω are stored in the storage unit (step S443), the process proceeds to step S447. When it is determined that D i and ω are not noise (step S439; No), the
なお、ステップS439において行われる、Di、ωが雑音であるか否かを判別する手法としては、様々なものが考えられるが、その好適な一例は、次のようなものである。すなわち、残差信号Di、ωについて、規格化された自己相関関数
CREG(t)=C(t)/REG(t)
(ただし、
C(t)=di、ω、0×di、ω、t+・・・
+di、ω、l-1-t×di、ω、l-1
であり、
REG(t)={(di、ω、0 2+・・・+di、ω、l-1-t 2)
×(di、ω、t 2+・・・+di、ω、l-1 2)}0.5
である。)
を計算し、CREG(t)が例えば0.5よりも大きい極大値を有する場合は雑音ではないと判別し、CREG(t)が0.5よりも大きい極大値を有しない場合は雑音である、と判別する方法である。
Various methods for determining whether Di and ω are noises performed in step S439 can be considered, and a preferable example thereof is as follows. That is, the normalized autocorrelation function for the residual signals D i and ω
C REG (t) = C (t) / REG (t)
(However,
C (t) = d i, ω, 0 × d i, ω, t + ...
+ d i, ω, l-1-t × d i, ω, l-1
And
REG (t) = {(d i, ω, 0 2 + ... + d i, ω, l-1-t 2 )
× (d i, ω, t 2 + ... + d i, ω, l-1 2 )} 0.5
It is. )
If C REG (t) has a maximum value greater than 0.5, for example, it is determined that it is not noise, and if C REG (t) does not have a maximum value greater than 0.5, it is noise. It is a method of discrimination.
また、ステップS441において行われる、ゲインGi、ωの算出にあたっても、様々なものが考えられるが、その好適な一例は、次のようなものである。すなわち、
Gi、ω=10×log10{Avg(di、ω 2)}、
Avg(di、ω 2)
=(di、ω、0 2+・・・+di、ω、l-1 2)/l
である。対数をとるのは、音の大きさと、人間の聴覚の感度との関係を考慮したからである。
Various things can be considered for the calculation of the gains Gi and ω performed in step S441, and a preferable example is as follows. That is,
G i, ω = 10 × log 10 {Avg (d i, ω 2 )},
Avg (d i, ω 2 )
= (d i, ω, 0 2 + ... + d i, ω, l-1 2 ) / l
It is. The reason why the logarithm is taken is that the relationship between the loudness of the sound and the sensitivity of human hearing is taken into consideration.
ステップS447では、ωが、最終帯域を示す所定の自然数ωfinに達したか否かが判別される。達していない場合(ステップS447;No)には、ωを1増加してから(ステップS449)、ステップS437に戻り、達している場合(ステップS447;Yes)には、ステップS451に進む。なお、帯域は、基本的には低周波数側から番号付けされているものとする。つまり、ω=1は最低周波数帯域を、ω=ωfinは最高周波数帯域を、それぞれ意味する。 In step S447, it is determined whether or not ω has reached a predetermined natural number ω fin indicating the final band. If not reached (step S447; No), ω is increased by 1 (step S449), and then the process returns to step S437. If reached (step S447; Yes), the process proceeds to step S451. The bands are basically numbered from the low frequency side. That is, ω = 1 means the lowest frequency band, and ω = ω fin means the highest frequency band.
ステップS451では、iがM-1に達したか否かが判別される。達していない場合(ステップS451;No)には、iを1増加してから(ステップS453)、ステップS433に戻る。達している場合(ステップS451;Yes)、図9のステップS461に進む。この時点で、雑音帯域についてのみフラグ及びゲインが生成されて記憶部325に格納されている。そして、残差信号の各帯域の成分のうち非雑音帯域のものだけが記憶部325に格納されている。
In step S451, it is determined whether i has reached M-1. If not reached (step S451; No), i is increased by 1 (step S453), and the process returns to step S433. When it has reached (step S451; Yes), the process proceeds to step S461 in FIG. At this time, a flag and a gain are generated only for the noise band and stored in the
ステップS461では、CPU321は、入力信号サンプルカウンタiをi=0に設定する。
In step S461, the
CPU321は、非雑音残差信号Di、v={di、v、0、・・・、di、v、l-1}を汎用レジスタに置き、di、v、0、・・・、di、v、l-1を全て0に初期化設定する(ステップS463)。また、帯域識別変数ωを、ω=1に設定する(ステップS465)。
The
CPU321は、記憶部325の内部を検索して、Di、ωが格納されているか否かを調査する(ステップS467)。かかる調査の結果(ステップS469)、Di、ωが格納されていると判別された場合(ステップS469;Yes)、帯域ωは非雑音帯域であり、非雑音残差信号を求めるための重ね合わせ処理が必要になる。この処理は、図1の非雑音残差信号集計器161の機能に対応する。よって、Di、ωはレジスタにロードされ(ステップS471)、これまでレジスタに格納されていたDi、vに重ね合わされる。Di、vがかかる重ね合わせの結果得られた数列に更新されてから(ステップS473)、ステップS475に進む。
The
一方、ステップS469において、Di、ωが格納されてないと判別された場合(ステップS469;No)、帯域ωは雑音帯域であるから、非雑音残差信号を求めるための重ね合わせは行われずに、ステップS475に進む。 On the other hand, when it is determined in step S469 that Di and ω are not stored (step S469; No), since the band ω is a noise band, the superposition for obtaining the non-noise residual signal is not performed. Then, the process proceeds to step S475.
ステップS475において、ωがωfinに達したか否かが判別される。達していないと判別された場合(ステップS475;No)は、ωを1増加してから(ステップS477)、ステップS467に戻り、非雑音帯域の探索と、非雑音帯域が見つかった場合の上述の重ね合わせ処理と、が繰り返される。ωがωfinに達したと判別された場合(ステップS475;Yes)、ステップS479に進む。 In step S475, it is determined whether or not ω has reached ω fin . If it is determined that it has not been reached (step S475; No), ω is incremented by 1 (step S477), and the process returns to step S467 to search for the non-noise band and the above-described case where the non-noise band is found. The superposition process is repeated. When it is determined that ω has reached ω fin (step S475; Yes), the process proceeds to step S479.
ステップS479において、CPU321は、スペクトル変換器163(図1)として機能することにより、Di、vを所定の手法により周波数変換してスペクトルF[Di、v]を求める。F[Di、v]は、周波数変換係数から構成される。
In step S479, the
なお、以下の説明、及び、図8以降の図面においては、用語が煩雑になることを避けるために、スペクトルとしての一組の周波数変換係数群、又は、スペクトルの一部をなす周波数変換係数群、を指して、単に、周波数変換係数、と呼ぶ場合がある。また、スペクトルの全体又は一部を構成する個々の周波数係数を指して、成分、と呼ぶ場合がある。 In the following description and the drawings after FIG. 8, in order to avoid complicated terms, a set of frequency conversion coefficients as a spectrum or a group of frequency conversion coefficients forming a part of the spectrum May be simply referred to as a frequency conversion coefficient. Further, individual frequency coefficients constituting the whole or a part of the spectrum may be referred to as components.
CPU321は、帯域識別変数ωをω=1に設定し(図9のステップS481)、記憶部325の内部を検索してDi、ωが格納されているか否かを調査し(ステップS483)、格納の有無を判別する(ステップS485)。この手順(ステップS481〜ステップS485)は、雑音帯域と非雑音帯域に場合分けした処理に関係する手順であるという点では、既出の手順であるステップS465〜ステップS469と全く同様の手順である。
The
なお、かかる場合分けにあたっては、CPU321は、記憶部325の内部の検索に際し、上述のようにDi、ωが見つかるか否かを調査する代わりに、フラグFlagi、ωが見つからないか見つかるかを調査してもよい。既出のステップS437〜ステップS449から明らかなように、Di、ωとFlagi、ωは択一的に記憶部に格納されるからである。
In this case classification, the
Di、ωが格納されていると判別された場合には(ステップS485;Yes)、ωは非雑音帯域であるということであるから、CPU321は、非雑音帯域切り出し器162として機能することにより、F[Di、v]から帯域ωにおける周波数変換係数F[Di、v](ω)={fD、i、v、ω、1、・・・、fD、i、v、ω、p(ω)}を切り出し(ステップS487)、記憶部325に格納する(ステップS489)。ここで、p(ω)は、帯域ωにおける周波数変換係数の個数である。その後、ステップS491に進む。
If it is determined that D i and ω are stored (step S485; Yes), it means that ω is a non-noise band, so that the
一方、Di、ωが格納されていないと判別された場合には(ステップS485;No)、ωは雑音帯域であるということであるから、周波数変換係数の切り出しは行われずに、ステップS491に進む。 On the other hand, D i, if omega is judged not to be stored (step S485; No), omega since is that a noise band, is not performed cutout frequency transform coefficients, in step S491 move on.
ステップS491では、ωがωfinに達したか否かが判別される。達していないと判別された場合(ステップS491;No)、ωを1増加してから(ステップS493)、ステップS483に戻り、達していると判別された場合(ステップS491;Yes)、i番目の時間区間における帯域毎の処理が終了したということであるから、ステップS495に進む。 In step S491, it is determined whether or not ω has reached ω fin . If it is determined that it has not been reached (step S491; No), ω is increased by 1 (step S493), and then the process returns to step S483. If it is determined that it has been reached (step S491; Yes), the i-th Since this means that the processing for each band in the time interval has been completed, the process proceeds to step S495.
ステップS495では、iがM-1に達したか否かが判別される。達していないと判別された場合(ステップS495;No)、iを1増加してから(ステップS497)、ステップS463に戻り、達していると判別された場合(ステップS495;Yes)、全ての時間区間における処理が終了したと言うことであるから、残差信号からフラグ等を求める処理全体が終了する。 In step S495, it is determined whether i has reached M-1. If it is determined that it has not been reached (step S495; No), i is incremented by 1 (step S497), then the process returns to step S463, and if it is determined that it has been reached (step S495; Yes), all times Since it means that the processing in the section has been completed, the entire processing for obtaining a flag or the like from the residual signal is completed.
次に、実施形態2に係る音声符号化装置113(図2)が行う処理の手順を、図10に示すフローチャートを参照しつつ説明する。 Next, the procedure of the process performed by the speech encoding apparatus 113 (FIG. 2) according to the second embodiment will be described with reference to the flowchart shown in FIG.
CPU321は、入力信号サンプルカウンタiを、i=0に設定する(図10のステップS511)。
The
CPU321は、レジスタに、記憶部325から、入力信号サンプルDi={di、0、・・・、di、l-1}をロードするとともに、帯域識別変数ωをω=1に設定し(ステップS513)、帯域ωの残差信号Di、ω={di、ω、0、・・・、di、ω、l-1}を生成する(ステップS515)。
The
CPU321は、Di、ωが雑音であるか否かを判別する(ステップS517)。Di、ωが雑音であると判別された場合には(ステップS517;Yes)、帯域ωにおけるフラグFlagi、ωの生成及びゲインGi、ωの算出と、それらの記憶部325への格納と、が行われてから(ステップS519)、ステップS523に進む。
The
一方、Di、ωが雑音ではないと判別された場合には(ステップS517;No)、Band Elimination Filter169(図2)の設定が、帯域ωを削除対象としない設定にされてから(ステップS521)、ステップS523に進む。 On the other hand, when it is determined that Di and ω are not noise (step S517; No), the setting of the Band Elimination Filter 169 (FIG. 2) is set not to delete the band ω (step S521). ), And proceeds to step S523.
ここで、Band Elimination Filter169のかかる設定は、後述のステップS525等で示されるωについてのループ処理について、各ループ毎に累積的に行われる。例えば、ステップS517の雑音判別処理において、全帯域のうち、帯域2、帯域5、帯域6が雑音ではないと判別された場合には、Band Elimination Filter169の設定は、最終的には、帯域2と、帯域5と、帯域6と、の計3個の帯域を除く帯域を削除する設定となる。
Here, the setting of the
ステップS523では、ωがωfinに達したか否かが判別され、達していないと判別された場合(ステップS523;No)、ωを1増加してから(ステップS525)、ステップS515に戻り、達していると判別された場合(ステップS523;Yes)、ステップS527に進む。 In step S523, it is determined whether or not ω has reached ω fin. If it is determined that ω has not been reached (step S523; No), after increasing ω by 1 (step S525), the process returns to step S515, When it is determined that it has reached (step S523; Yes), the process proceeds to step S527.
ステップS527では、iがM-1に達したか否かが判別され、達していないと判別された場合(ステップS527;No)、iを1増加してから(ステップS529)、ステップS513に戻り、達していると判別された場合(ステップS527;Yes)、ステップS531に進む。 In step S527, it is determined whether or not i has reached M−1. If it is determined that i has not been reached (step S527; No), i is increased by 1 (step S529), and then the process returns to step S513. , When it is determined that it has been reached (step S527; Yes), the process proceeds to step S531.
この時点で、CPU321は、フラグ及びゲイン生成部133として機能することをほぼ完了し、また、非雑音帯域決定器167(図2)として機能することによりBand Elimination Filter169に削除帯域指定命令を送る動作を完了したことになる。
At this time, the
ステップS531では、入力信号サンプルカウンタiがi=0に設定される。それから、CPU321は、残差信号Diをロードし、ステップS521における累積的設定が済んでいるBand Elimination Filter169に通すことにより、非雑音残差信号Di、v={di、v、0、・・・、di、v、l-1}を生成する。
In step S531, the input signal sample counter i is set to i = 0. Then, the
なお、Band Elimination Filter169は、ROM323(図6)に格納されたCPUの動作プログラムに含まれる関数等であってもよいし、別途ハードウェアとして備えられたものであってもよい。
The
CPU321はさらに、生成した非雑音残差信号Di、vを周波数変換してスペクトルF[Di、v]を求める(ステップS533)。
The
ステップS535では、帯域識別変数ωが、ω=1に設定される。 In step S535, the band identification variable ω is set to ω = 1.
ステップS537及びステップS539では帯域ωが雑音帯域であるか非雑音帯域であるかが判別される。本ステップは、図2においては、非雑音帯域決定器167が非雑音帯域切り出し器162に非雑音帯域に関する情報を送ることに相当する。なお、図8及び図9に示したフローチャートにおいては、雑音帯域であるか非雑音帯域であるかの判別に際して、帯域別残差信号Di、ωの検索が行われている。そして、かかる判別はフラグFlagi、ωの検索により行ってもよいことは、前述したとおりである。
In step S537 and step S539, it is determined whether the band ω is a noise band or a non-noise band. In FIG. 2, this step corresponds to the
それに対して、図10で示される手順においては、該図に対応する実施形態2を示す図2からも明らかなとおり、帯域別残差信号Di、ωを記憶部325に格納する過程(図8のステップS445)がない。実施形態2においては、Di、ωを重ね合わせる処理が不要だからである。したがって、図10のステップS537及びステップS539における判別の方法としては、フラグFlagi、ωの検索による方法しか採り得ない。この事情は、後述の、実施形態3に対応したフローチャートである図11及び図12においても同様である。 On the other hand, in the procedure shown in FIG. 10, as is clear from FIG. 2 showing the second embodiment corresponding to the figure, the process of storing the band-specific residual signals D i and ω in the storage unit 325 (FIG. There is no step S445). This is because the process of superimposing Di and ω is unnecessary in the second embodiment. Therefore, as the determination method in step S537 and step S539 in FIG. 10, only a method by searching for the flags Flag i and ω can be used. This situation also applies to FIGS. 11 and 12, which are flowcharts corresponding to the third embodiment described later.
結局、ステップS539では、記憶部325にフラグFlagi、ωが格納されているか否かが判別される。Flagi、ωが格納されていないと判別された場合(ステップS539;No)、帯域ωは非雑音帯域であるということであるから、ステップS533で求められたスペクトルF[Di、v]から帯域ωにおける周波数変換係数F[Di、v](ω)={fD、i、v、ω、1、・・・、fD、i、v、ω、p(ω)}が切り出され、記憶部325に格納されてから(ステップS541)、ステップS543に進む。
Eventually, in step S539, it is determined whether or not the flags Flag i and ω are stored in the
一方、Flagi、ωが格納されていると判別された場合(ステップS539;Yes)、帯域ωは雑音帯域であるということであるから、そのままステップS543に進む。 On the other hand, when it is determined that Flag i and ω are stored (step S539; Yes), since the band ω is a noise band, the process proceeds to step S543 as it is.
ステップS543では、ωがωfinに達したか否かが判別される。達していないと判別された場合(ステップS543;No)、ωを1増加してから(ステップS545)、ステップS537に戻り、達していると判別された場合(ステップS543;Yes)、i番目の時間区間における帯域毎の処理が終了したということであるから、ステップS547に進む。 In step S543, it is determined whether or not ω has reached ω fin . If it is determined that it has not been reached (step S543; No), ω is increased by 1 (step S545), and then the process returns to step S537. If it is determined that it has been reached (step S543; Yes), the i-th Since this means that the processing for each band in the time interval has been completed, the process proceeds to step S547.
ステップS547では、iがM-1に達したか否かが判別される。達していないと判別された場合(ステップS547;No)、iを1増加してから(ステップS549)、ステップS533に戻り、達していると判別された場合(ステップS547;Yes)、全ての時間区間における処理が終了したと言うことであるから、残差信号からフラグ等を求める処理全体が終了する。 In step S547, it is determined whether i has reached M-1. If it is determined that it has not been reached (step S547; No), after i is increased by 1 (step S549), the process returns to step S533, and if it is determined that it has been reached (step S547; Yes), all times Since it means that the processing in the section has been completed, the entire processing for obtaining a flag or the like from the residual signal is completed.
次に、実施形態3に係る音声符号化装置115(図3)が行う処理の手順を、図11及び図12に示すフローチャートを参照しつつ説明する。 Next, a procedure of processing performed by the speech encoding device 115 (FIG. 3) according to the third embodiment will be described with reference to the flowcharts shown in FIGS.
はじめに、入力信号サンプルカウンタiが、i=0に設定される(図11のステップS540)。 First, the input signal sample counter i is set to i = 0 (step S540 in FIG. 11).
入力信号サンプルDi={di、0、・・・、di、l-1}がロードされ(ステップS542)、そのスペクトルF[Di]が求められ(ステップS544)、ステップS547に進む。図3におけるスペクトル変換器163の位置から明らかなとおり、実施形態3においては、先の2つの実施形態の場合に比べて、早い段階で周波数変換が行われることが特徴である。各種の前置処理を経ないうちに周波数変換が行われるために、かかる前置処理に起因する誤差の影響がなく、周波数変換係数が精度よく求まることは、既に述べたとおりである。
The input signal samples D i = {d i, 0 ,..., D i, l-1 } are loaded (step S542), the spectrum F [D i ] is obtained (step S544), and the process proceeds to step S547. . As is clear from the position of the
ステップS546では、帯域識別変数ωがω=1に設定される。 In step S546, the band identification variable ω is set to ω = 1.
ステップS548では、帯域ωにおける周波数変換係数F[Di](ω)={fD、i、ω、1、・・・、fD、i、ω、p(ω)}が、F[Di]から切り出されることにより生成される。なお、この時点では、帯域ωが雑音帯域であるか非雑音帯域であるかがまだ判別されていないので、周波数変換係数F[Di](ω)は全ての帯域ωについて生成される。生成されたF[Di](ω)は、記憶部325に格納される(ステップS550)。 In step S548, the frequency conversion coefficient F [D i ] (ω) = {f D, i, ω 1 ,..., F D, i, ω, p (ω) } in the band ω is changed to F [D i ]. At this point, since it is not yet determined whether the band ω is a noise band or a non-noise band, the frequency conversion coefficient F [D i ] (ω) is generated for all bands ω. The generated F [D i ] (ω) is stored in the storage unit 325 (step S550).
ステップS552では、ωがωfinに達したか否かが判別される。達していないと判別された場合(ステップS552;No)、ωを1増加してから(ステップS555)、ステップS548に戻り、達していると判別された場合(ステップS552;Yes)、ステップS557に進む。 In step S552, it is determined whether or not ω has reached ω fin . If it is determined that it has not been reached (step S552; No), after increasing ω by 1 (step S555), the process returns to step S548, and if it is determined that it has been reached (step S552; Yes), the process returns to step S557. move on.
ステップS557では、iがM-1に達したか否かが判別される。達していないと判別された場合(ステップS557;No)、iを1増加してから(ステップS559)、ステップS542に戻り、達していると判別された場合(ステップS557;Yes)、ステップS561に進む。 In step S557, it is determined whether i has reached M-1. If it is determined that it has not been reached (step S557; No), i is increased by 1 (step S559), and then the process returns to step S542. If it is determined that it has been reached (step S557; Yes), the process returns to step S561. move on.
ステップS561では、入力信号サンプルカウンタiが、i=0に設定される。ステップS563では、残差信号Diがレジスタにロードされ、ステップ565では、帯域識別変数ωが、ω=1に設定され、ステップS567では、入力信号サンプルDiから、帯域フィルタ部127(図3)の中の第ω帯域フィルタにより、帯域ωの残差信号Di、ω={di、ω、0、・・・、di、ω、l-1}が生成される。
In step S561, the input signal sample counter i is set to i = 0. In step S563, the residual signal D i is loaded into the register. In
ここで、残差信号Di、ωが雑音か否かが判別される(ステップS569)。Di、ωが雑音であると判別された場合(ステップS569;Yes)、フラグFlagi、ωの生成及びゲインGi、ωの算出が行われ(ステップS571)、Flagi、ω及びGi、ωの記憶部325への格納が行われてから(ステップS573)、ステップS575に進む。Di、ωが雑音ではないと判別された場合は(ステップS569;No)、すぐにステップS575に進む。 Here, it is determined whether or not the residual signals D i and ω are noise (step S569). If it is determined that D i and ω are noise (step S569; Yes), flags Flag i and ω are generated and gains G i and ω are calculated (step S571). Flag i, ω, and G i , Ω is stored in the storage unit 325 (step S573), and then the process proceeds to step S575. If it is determined that D i and ω are not noise (step S569; No), the process immediately proceeds to step S575.
ステップS575では、ωがωfinに達したか否かが判別される。達していないと判別された場合(ステップS575;No)、ωを1増加してから(ステップS577)、ステップS567に戻り、達していると判別された場合(ステップS575;Yes)、ステップS579に進む。 In step S575, it is determined whether or not ω has reached ω fin . If it is determined that it has not been reached (step S575; No), ω is incremented by 1 (step S577), and then the process returns to step S567. If it is determined that it has been reached (step S575; Yes), the process returns to step S579. move on.
ステップS579では、iがM-1に達したか否かが判別される。達していないと判別された場合(ステップS579;No)、iを1増加してから(ステップS581)、ステップS563に戻り、達していると判別された場合(ステップS579;Yes)、図12のステップS591に進む。 In step S579, it is determined whether i has reached M-1. When it is determined that it has not been reached (step S579; No), i is increased by 1 (step S581), and then the process returns to step S563. When it is determined that it has been reached (step S579; Yes), FIG. The process proceeds to step S591.
ステップS591では、入力信号サンプルカウンタiが、i=0に設定される。そして、ステップS593では、帯域識別変数ωがω=1に設定される。 In step S591, the input signal sample counter i is set to i = 0. In step S593, the band identification variable ω is set to ω = 1.
記憶部325の内部が検索され、フラグFlagi、ωが格納されているか否かが調査された(ステップS595)後、Flagi、ωが格納されているか否かの判別ステップ(ステップS597)に進む。
The inside of the
Flagi、ωが格納されていないと判別された場合(ステップS597;No)、帯域ωにおける周波数変換係数F[Di](ω)={fD、i、ω、1、・・・、fD、i、ω、p(ω)}がレジスタにロードされる(ステップS599)。そして、レジスタにはF[Di](ω)とは別に、帯域ωにおける周波数変換係数F[Di、v](ω)={fD、i、v、ω、1、・・・、fD、i、v、ω、p(ω)}が用意され、F[Di、v](ω)=F[Di](ω)によりF[Di、v](ω)が決定される(ステップS601)。 When it is determined that Flag i and ω are not stored (step S597; No), the frequency conversion coefficient F [D i ] (ω) = {f D, i, ω 1 ,. f D, i, ω, p (ω) } are loaded into the register (step S599). In addition to the F [D i ] (ω), the register includes frequency conversion coefficients F [D i, v ] (ω) = {f D, i, v, ω 1 ,. f D, i, v, ω , p (ω)} are prepared, F [D i, v] (ω) = F [D i] by (ω) F [D i, v] (ω) is determined (Step S601).
ここで、上述のようにF[Di](ω)は全ての帯域について生成されるものであるのに対し、ステップS601で定義されるF[Di、v](ω)は、ステップS597における場合分けのため、非雑音帯域についてのみ生成されるものであることに留意する。F[Di、v](ω)が記憶部325に格納された(ステップS603)後、ステップS605に進む。 Here, as described above, F [D i ] (ω) is generated for all bands, whereas F [D i, v ] (ω) defined in step S601 is determined in step S597. Note that because of the case separation in, it is generated only for the non-noise band. After F [D i, v ] (ω) is stored in the storage unit 325 (step S603), the process proceeds to step S605.
一方、Flagi、ωが格納されていると判別された場合は(ステップS597;Yes)、そのままステップS605に進む。 On the other hand, if it is determined that Flag i and ω are stored (step S597; Yes), the process directly proceeds to step S605.
ステップS605では、ωがωfinに達したか否かが判別される。達していないと判別された場合(ステップS605;No)、ωを1増加してから(ステップS607)、ステップS595に戻り、達していると判別された場合(ステップS605;Yes)、ステップS609に進む。 In step S605, it is determined whether or not ω has reached ω fin . If it is determined that it has not been reached (step S605; No), ω is increased by 1 (step S607), and then the process returns to step S595. If it is determined that it has been reached (step S605; Yes), the process returns to step S609. move on.
ステップS609では、iがM-1に達したか否かが判別される。達していないと判別された場合(ステップS609;No)、iを1増加してから(ステップS611)、ステップS593に戻り、達していると判別された場合(ステップS609;Yes)、処理を終了する。 In step S609, it is determined whether i has reached M-1. If it is determined that it has not been reached (step S609; No), i is incremented by 1 (step S611), and the process returns to step S593. If it is determined that it has been reached (step S609; Yes), the process is terminated. To do.
(フラグ等から残差信号を復元する手順)
以下では、実施形態4に係る音声復号装置211及び実施形態5に係る音声復号装置213が行う、残差信号からフラグ、ゲイン、及び、周波数変換係数、を求める手順を説明する。
(Procedure for restoring residual signal from flags, etc.)
Hereinafter, a procedure for obtaining a flag, a gain, and a frequency conversion coefficient from a residual signal performed by the
なお、前提として、復号部223(図4乃び図5)により、予測係数、フラグFlagi、ω(0≦i≦M-1、1≦ω≦ωfin、ただしωは雑音帯域であるとする。)、ゲインGi、ω(0≦i≦M-1、1≦ω≦ωfin、ただしωは雑音帯域であるとする。)、非雑音帯域における周波数変換係数F[Di、v](ω)={fD、i、v、ω、1、・・・、fD、i、v、ω、p(ω)} (0≦i≦M-1、1≦ω≦ωfin、ただしωは非雑音帯域であるとする。)、は、既に復号されて記憶部325に格納されているものとする。
As a premise, the decoding unit 223 (FIG. 4 and FIG. 5) performs prediction coefficients, flags Flag i, ω (0 ≦ i ≦ M−1, 1 ≦ ω ≦ ω fin , where ω is a noise band. ), Gain G i, ω (0 ≦ i ≦ M-1, 1 ≦ ω ≦ ω fin , where ω is a noise band), frequency conversion coefficient F [D i, v in non-noise band ] (ω) = {f D, i, v, ω 1 ,..., f D, i, v, ω, p (ω) } (0 ≦ i ≦ M-1, 1 ≦ ω ≦ ω fin , Where ω is a non-noise band.) Is already decoded and stored in the
まず、実施形態4に係る音声復号装置211(図4)が行う処理の手順を、図13及び図14に示すフローチャートを参照しつつ説明する。 First, the procedure of the process performed by the speech decoding apparatus 211 (FIG. 4) according to the fourth embodiment will be described with reference to the flowcharts shown in FIGS.
はじめに、ステップS621(図13)において、入力信号サンプルカウンタiが、i=0に設定される。 First, in step S621 (FIG. 13), the input signal sample counter i is set to i = 0.
CPU321は、レジスタに、復元雑音残差信号D'i、uvと、非雑音残差信号スペクトルF[Di、v]と、を用意し、D'i、uvの成分と、F[Di、v]の成分と、を全て0に初期化設定する(ステップS623)。
The
なお、F[Di、v]の全ての成分の初期値は、上述の通り、一般には0に設定するのが適切である。かかる数値0は、非雑音帯域における残差信号は別途ゲインを元に復元されるために、オフセットが不要であるとの観点から決定されたものであって、絶対的な規則ではない。 Note that the initial values of all the components of F [D i, v ] are generally set to 0 as described above. The numerical value 0 is determined from the viewpoint that an offset is unnecessary because the residual signal in the non-noise band is separately restored based on the gain, and is not an absolute rule.
例えば、実施形態1乃至5については、ゲインに関係した処理を省略する、つまり雑音帯域についての情報としては音声符号化装置と音声復号装置の間(換言すれば送受信器間)でフラグのみを伝達することとした変形例も考え得るが、かかる場合には、人間の聴覚特性を考慮した上で、F[Di、v]の成分の初期値を、0以外の所定の定数にしてもよいし、さらに、かかる所定の定数が成分毎に異なっていてもよい。このようにすれば、後述のように、非雑音帯域についてのみ成分の置換が行われるので、最終的に生成されるF[Di、v]においては、雑音帯域における成分が前記所定の定数のまま残る。つまり、前記所定の定数とは、送受信器間でゲインの授受がなされない場合に、あらかじめ定めておくゲインである。 For example, in the first to fifth embodiments, the process related to the gain is omitted, that is, only the flag is transmitted between the speech coding apparatus and the speech decoding apparatus (in other words, between the transmitter and the receiver) as information about the noise band. In this case, the initial value of the component of F [D i, v ] may be set to a predetermined constant other than 0 in consideration of human auditory characteristics. In addition, the predetermined constant may be different for each component. In this way, as will be described later, since the component replacement is performed only for the non-noise band, in the finally generated F [D i, v ], the component in the noise band is equal to the predetermined constant. Remains. In other words, the predetermined constant is a gain determined in advance when no gain is exchanged between the transmitter and the receiver.
帯域識別変数ωがω=1に設定された(ステップS625)後、記憶部325の内部が検索されて、フラグFlagi、ωが格納されているか否かが調査され(ステップS627)、判別ステップ(ステップS629)に進む。
After the band identification variable ω is set to ω = 1 (step S625), the inside of the
Flagi、ωが格納されていると判別された場合(ステップS629;Yes)、帯域ωは雑音帯域であるということであるから、記憶部325にはゲインGi、ωが格納されているはずである。そこで、Gi、ωがレジスタにロードされる(ステップS631)。これは、図4においては、復号部223から復号用Gスイッチ部227に帯域ωの情報として引き渡されるものが、周波数変換係数ではなくゲインであることに相当する。
If it is determined that Flag i and ω are stored (step S629; Yes), the band ω is a noise band, and therefore the gain G i and ω should be stored in the
CPU321は、帯域別雑音列生成部229(図4)として機能することにより、ロードされたGi、ωを手がかりにして、帯域ωにおける雑音列D'i、uv、ωを生成する(図13のステップS633)。具体的な生成方法は、後に図14を参照して説明する。
The
CPU321は、生成されたD'i、uv、ωを、レジスタ内に格納されているD'i、uvに重ね合わせて、新たなD'i、uvを生成する。つまり、D'i、uvを更新する(図13のステップS635)。これは、図4においては、帯域別雑音列生成部229(図4)により生成された雑音列が残差信号復元部233において重ね合わせられ、雑音帯域における残差信号が復元されていく過程に相当する。D'i、uvが上述のように更新されたら、ステップS641に進む。
CPU321 is generated D i 'i, uv, the omega, D is stored in the register', superimposed on the uv, it generates a new D 'i, uv. That is, D ′ i and uv are updated (step S635 in FIG. 13). In FIG. 4, the noise sequence generated by the band-specific noise sequence generation unit 229 (FIG. 4) is superimposed in the residual
一方、ステップS629において、Flagi、ωが格納されていないと判別された場合(ステップS629;No)、帯域ωは非雑音帯域であるということであるから、記憶部325には帯域ωにおける周波数変換係数F[Di、v](ω)が格納されているはずである。そこで、F[Di、v](ω)がレジスタにロードされる(ステップS637)。これは、図4においては、復号部223から復号用Gスイッチ部227に帯域ωの情報として引き渡されるものが、ゲインではなく周波数変換係数であることに相当する。
On the other hand, when it is determined in Step S629 that Flag i and ω are not stored (Step S629; No), the band ω is a non-noise band, and therefore the
CPU321は、レジスタ内に格納されている非雑音残差信号スペクトルF[Di、v]の成分のうち、帯域ωにおける成分群を、ステップS637でロードしたF[Di、v](ω)に置換することにより、F[Di、v]を更新する(ステップS639)。
The
既出のステップS623において、F[Di、v]の成分の初期値は全て0に設定されているから、後述のステップS643等によるωに関するループ処理により、F[Di、v]の一部分が、ループの度にF[Di、v](ω)に置換され、F[Di、v]は最終的には非雑音残差信号スペクトルとして適切なものとなる。 In the above-described step S623, the initial values of the components of F [D i, v ] are all set to 0, so that a part of F [D i, v ] is obtained by the loop processing for ω in step S643 and the like described later. In each loop, F [D i, v ] (ω) is replaced, and F [D i, v ] is finally suitable as a non-noise residual signal spectrum.
ここで、かかる置換が生じるのは非雑音帯域の成分についてのみであり、雑音帯域の成分は初期値である0のままであることに留意する。 Here, it should be noted that such substitution occurs only for the components in the non-noise band, and the noise band component remains at the initial value of 0.
ステップS637及びステップS639で行われる処理は、図4においては、周波数変換係数集計及び補充器255が復号用Gスイッチ部227から非雑音帯域における周波数変換係数を受け取って集計し、雑音帯域における周波数変換係数としては0を補充しつつ、全帯域における周波数変換係数を求めていく過程に相当する。F[Di、v]が上述のように更新されたら、ステップS641に進む。
In FIG. 4, the processing performed in step S637 and step S639 is performed as follows. In FIG. 4, the frequency conversion coefficient totaling and supplementing
なお、このように、ステップS627におけるFlagi、ωの検索の後にF[Di、v]が徐々に完成されていく手順を採っている理由は、実施形態1乃至5の音声符号化装置と音声復号装置との間では、非雑音帯域における周波数変換係数の授受は行わないことを前提としているためである。 The reason why F [D i, v ] is gradually completed after the search for Flag i, ω in step S627 is the same as that of the speech encoding apparatus according to the first to fifth embodiments. This is because it is assumed that no frequency conversion coefficient is exchanged in the non-noise band with the speech decoding apparatus.
かかる授受が行われないことは、CPU321に検索のための負荷がかかるという問題を生じさせ得るが、送信器としての音声符号化装置から受信器としての音声復号装置への情報伝達量が少なくて済むという点で、本発明の目的に沿ったものである。しかも、一般的なCPUにとって、フラグという簡潔な情報の有無を検索する程度の負荷は、実際にはほとんど問題とはならない。
The fact that such transfer is not performed may cause a problem that the
もっとも、実施形態1乃至5の変形例として、一部の非雑音帯域についての情報については、フラグの代わりに、該帯域の周波数変換係数を0とした態様で伝達してもよい。このようにすれば、送受信器間での情報伝達量は増加するが、上述のCPUの検索負担の軽減と、ステップS637及びステップS639で行われる置換処理の一部省略が可能となり、音声復号装置における処理の高速化に資する。また、送受信器間での情報伝達量が増加するといっても、小さな数値である数値0が伝達されるだけであるから、与えられた情報伝達量に余裕がある場合には、このような変形例の方が効率が良いこともあり得る。 However, as a modification of the first to fifth embodiments, information about a part of the non-noise band may be transmitted in a mode in which the frequency conversion coefficient of the band is set to 0 instead of the flag. This increases the amount of information transmitted between the transmitter and the receiver, but it is possible to reduce the above-described CPU search burden and to omit part of the replacement processing performed in steps S637 and S639. Contributes to speeding up the process. In addition, even if the amount of information transmitted between the transmitter and the receiver increases, only a small numerical value 0 is transmitted, so if there is a margin in the given information transmission amount, such a modification The example may be more efficient.
ステップS641では、ωがωfinに達したか否かが判別され、達していない場合(ステップS641;No)、ωを1増加してから(ステップS643)、ステップS627に戻り、達している場合(ステップS641;Yes)、ステップS645に進む。 In step S641, it is determined whether or not ω has reached ω fin. If not reached (step S641; No), ω is increased by 1 (step S643), and then the process returns to step S627 and has been reached. (Step S641; Yes), the process proceeds to Step S645.
ステップS645では、CPU321は図4におけるスペクトル逆変換器257として機能することにより、非雑音残差信号スペクトルF[Di、v]から非雑音残差信号Di、vを求める。そして、CPU321は、D'i、uvとD i、vを重ね合わせることにより、復元残差信号D'iを求め(ステップS647)、D'iを記憶部に格納する(ステップS649)。
In step S645,
ステップS651では、iがM-1に達したか否かが判別される。達していないと判別された場合(ステップS651;No)、iを1増加してから(ステップS653)、ステップS623に戻り、達したと判別された場合(ステップS651;Yes)、処理を終了する。 In step S651, it is determined whether i has reached M-1. If it is determined that it has not been reached (step S651; No), i is increased by 1 (step S653), and then the process returns to step S623. If it is determined that it has been reached (step S651; Yes), the process is terminated. .
以下では、上述のステップS633における帯域別雑音列D'i、uv、ωの生成の具体的な手順について、図14に示すフローチャートを参照しつつ説明する。 Hereinafter, a specific procedure for generating the band-specific noise sequence D ′ i, uv, ω in step S633 described above will be described with reference to the flowchart shown in FIG.
はじめに、大きさが±1で、時間間隔が乱数であるような基本雑音列Ri={Ri、0、・・・、Ri、l-1}を生成する(ステップS655)。 First, a basic noise sequence R i = {R i, 0 ,..., R i, l-1 } having a size of ± 1 and a time interval of a random number is generated (step S655).
ここでは、元の残差信号のサンプリング間隔と同じサンプリング間隔であるとしてRiを生成する。よって、実際には、その各要素Ri、0、・・・、Ri、l-1の値はそれぞれ0か+1か-1のいずれかである。しかも、これら時間順に並んだ要素の列においては、ランダムな個数間隔で+1か-1が出現し、他の要素の値は0ということになる。 Here, Ri is generated assuming that the sampling interval is the same as the sampling interval of the original residual signal. Therefore, in practice, the value of each element R i, 0 ,..., R i, l−1 is either 0, +1, or −1. Moreover, in these element sequences arranged in time order, +1 or -1 appears at random number intervals, and the values of the other elements are 0.
得られた基本雑音列Riを、帯域ωの成分を取り出す帯域フィルタに通すことにより、帯域ωの基本雑音列Ri、ω={Ri、ω、0、・・・、Ri、ω、l-1}を生成する(ステップS657)。 By passing the obtained basic noise sequence R i through a band-pass filter that extracts the component of the band ω, the basic noise sequence R i, ω = {R i, ω, 0 , ..., R i, ω of the band ω , L-1 } is generated (step S657).
生成した帯域ωの基本雑音列Ri、ωに、図13のステップS631でロードされたゲインGi、ωを乗じることにより、雑音列D’ i、uv、ω={d’ i、uv、ω、0、・・・、d’ i、uv、ω、l-1}が生成され(ステップS659)、処理は終了する。 By multiplying the generated basic noise sequence R i, ω of the band ω by the gains G i, ω loaded in step S631 in FIG. 13, the noise sequence D ′ i, uv, ω = {d ′ i, uv, ω, 0 ,..., d ′ i, uv, ω, l−1 } are generated (step S659), and the process ends.
次に、実施形態5に係る音声復号装置213(図5)が行う処理の手順を、図15に示すフローチャートを参照しつつ説明する。 Next, the procedure of processing performed by the speech decoding apparatus 213 (FIG. 5) according to the fifth embodiment will be described with reference to the flowchart shown in FIG.
はじめに、ステップS661において、入力信号サンプルカウンタiが、i=0に設定される。 First, in step S661, the input signal sample counter i is set to i = 0.
CPU321のレジスタにおいて復元残差信号スペクトルF[D'i]が用意され、その成分が全て0に初期化設定される(ステップS663)。
A restored residual signal spectrum F [D ′ i ] is prepared in the register of the
帯域識別変数ωがω=1に設定された(ステップS665)後、記憶部325の内部が検索されて、フラグFlagi、ωが格納されているか否かが調査され(ステップS667)、判別ステップ(ステップS669)に進む。
After the band identification variable ω is set to ω = 1 (step S665), the inside of the
Flagi、ωが格納されていると判別された場合(ステップS669;Yes)、ゲインGi、ωがレジスタにロードされる(ステップS671)。 When it is determined that Flag i and ω are stored (step S669; Yes), the gains G i and ω are loaded into the register (step S671).
CPU321は、復元残差信号スペクトルF[D'i]の成分について、帯域ωに含まれる成分を全て、Gi、ω×単位成分、に置換することにより、F[D'i]を更新する(ステップS673)。これは、図5においては、帯域別定数周波数変換係数生成部259から、雑音帯域における周波数変換係数が、周波数変換係数集計器267に引き渡されることに相当する。この後、ステップS679に進む。
The
一方、Flagi、ωが格納されていないと判別された場合(ステップS669;No)、帯域ωにおける周波数変換係数F[Di、v](ω)がレジスタにロードされ(ステップS675)、F[D'i]の成分について、帯域ωに含まれる成分群がF[Di、v](ω)に置換されることにより、F[D'i]が更新されてから(ステップS677)、ステップS679に進む。 On the other hand, when it is determined that Flag i and ω are not stored (step S669; No), the frequency conversion coefficient F [D i, v ] (ω) in the band ω is loaded into the register (step S675). For the component [D ′ i ], the component group included in the band ω is replaced with F [D i, v ] (ω), so that F [D ′ i ] is updated (step S677). The process proceeds to step S679.
ステップS679では、ωがωfinに達したか否かが判別され、達していない場合(ステップS679;No)、ωを1増加してから(ステップS681)、ステップS667に戻り、達している場合(ステップS679;Yes)、ステップS683に進む。 In step S679, it is determined whether or not ω has reached ω fin. If it has not been reached (step S679; No), ω is increased by 1 (step S681), and then the process returns to step S667. (Step S679; Yes), the process proceeds to Step S683.
ステップS683では、逆変換により、復元残差信号スペクトルF[D'i]から残差信号D'iが求められる。D'iが記憶部に格納された(ステップS685)後、ステップS687に進む。 In step S683, a residual signal D ′ i is obtained from the restored residual signal spectrum F [D ′ i ] by inverse transformation. After D ′ i is stored in the storage unit (step S685), the process proceeds to step S687.
ステップS687では、iがM-1に達したか否かが判別される。達していないと判別された場合(ステップS687;No)、iを1増加してから(ステップS689)、ステップS663に戻り、達したと判別された場合(ステップS687;Yes)、処理を終了する。 In step S687, it is determined whether i has reached M-1. If it is determined that it has not been reached (step S687; No), i is increased by 1 (step S689), and then the process returns to step S663. If it is determined that it has been reached (step S687; Yes), the process is terminated. .
(音声信号復元の手順)
以下では、図16を参照しつつ、図4及び図5に示した音声復号装置211及び音声復号装置213の内部で行われる、音声信号復元の手順について説明する。ここでは、予測分析としてMLSA分析が用いられた場合の手順を例に説明するが、線型予測分析など他の予測分析が用いられた場合の手順も、同様である。
(Procedure for audio signal restoration)
Hereinafter, with reference to FIG. 16, a description will be given of the procedure of audio signal restoration performed inside the
受信部221(図4及び図5)は、元の音声の予測係数等が符号化された結果である符号を、受信して、復号部223(図4及び図5)に引き渡す。復号部223は、引き渡された符号を復号して、予測係数と、フラグ等とを生成する。これらは記憶部325に格納される。予測係数は、MLSA分析の場合は、MLSAフィルタ係数Mi={mi、0、・・・、mi、p-1}(0≦i≦M-1)である。
The receiving unit 221 (FIGS. 4 and 5) receives a code that is the result of encoding the prediction coefficient of the original speech and passes it to the decoding unit 223 (FIGS. 4 and 5). The
入力信号サンプルカウンタがi=1に設定(図16のステップS711)された後、予測係数Miが記憶部325からCPU321の内部のレジスタにロードされる(ステップS713)。次に、予測係数Miから合成用逆フィルタCIMiが計算される(ステップS715)。これは、図4及び図5において、予測係数を引き渡された合成用フィルタ算出部235により、合成用フィルタ部237の仕様が定められることに相当する。
After the input signal sample counter is set to i = 1 (step S711 in FIG. 16), the prediction coefficient M i is loaded from the
続いて、復元残差信号D 'iが、ステップS715にて求められた合成用フィルタCIMiに通される。その結果、復元されたデジタル音声信号S 'i={s'i、0、・・・、s'i、l-1}(0≦i≦M-1)が生成される(ステップS717)。復元されたデジタル音声信号S'iは記憶部325に格納される(ステップS719)。続いて、iがM-1に達しているか否かが判別され(ステップS721)、達していないのであれば(ステップS721;No)、iを1だけ増加してから(ステップS723)、ステップS713に戻る。iがM-1に達しているのであれば(ステップS721;Yes)、処理を終了する。 Subsequently, the restored residual signal D′ i is passed through the synthesis filter CIM i obtained in step S715. As a result, the restored digital audio signal S ′ i = {s ′ i, 0 ,..., S ′ i, l−1 } (0 ≦ i ≦ M−1) is generated (step S717). The restored digital audio signal S ′ i is stored in the storage unit 325 (step S719). Subsequently, it is determined whether or not i has reached M-1 (step S721). If not (step S721; No), i is increased by 1 (step S723), and then step S713. Return to. If i has reached M−1 (step S721; Yes), the process is terminated.
(ケプストラムからMLSA係数を求める手順の一例)
図17は、ケプストラムCi={ci、0、・・・、ci、(l/2)-1}からMLSAフィルタ係数Mi={mi、0、・・・、mi、p-1}を求める具体的な手順の一例をフローチャートにしたものである。ステップS811〜S835に示した計算を行うことにより、MLSAフィルタ係数が求まる。αは近似用の数値であり、音声信号が10kHzでサンプリングされている場合にはα=0.35とするのが好適である。また、β=1-α2である。mi(0≦i≦p-1)は0に初期化しておく。
(Example of procedure for obtaining MLSA coefficients from cepstrum)
Figure 17 is a cepstrum C i = {c i, 0 , ···, c i, (l / 2) -1} MLSA filter coefficients from M i = {m i, 0 , ···, m i, p -1 } is a flowchart illustrating an example of a specific procedure. By performing the calculations shown in steps S811 to S835, the MLSA filter coefficient is obtained. α is a numerical value for approximation, and α = 0.35 is preferable when the audio signal is sampled at 10 kHz. Further, β = 1−α 2 . m i (0 ≦ i ≦ p−1) is initialized to 0.
このようにして求まったMLSAフィルタ係数を用いたMLSAフィルタの構成の一例を、図18に示す。P1〜P4は近似用係数であり、例えば、P1=0.4999、P2=0.1067、P3=0.0117、P4=0.0005656とするのが好適である。 An example of the configuration of the MLSA filter using the MLSA filter coefficient obtained in this way is shown in FIG. P 1 to P 4 are approximation coefficients, and for example, P 1 = 0.4999, P 2 = 0.1067, P 3 = 0.0117, and P 4 = 0.0005656 are preferable.
なお、この発明は、上記実施形態に限定されず、既に文中でもいくつかの変形例を挙げたように、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。 In addition, this invention is not limited to the said embodiment, A various deformation | transformation and application are possible as already mentioned some modification examples in the text. The above-described hardware configuration, block configuration, and flowchart are examples, and are not limited.
例えば、図3に示される音声符号化兼復号装置311として携帯電話機を想定して説明したが、PHS(Personal Handyphone System)、PDA(Personal Digital Assistants)、ノート型及びデスクトップ型パーソナルコンピュータ等による音声処理においても、同様に本発明を適用することができる。例えば本発明をパーソナルコンピュータに適用する場合には、パーソナルコンピュータに音声入出力装置や通信装置等を付加すれば、ハードウェアとしては携帯電話機の機能を有するようにすることができる。そして、上述の処理をコンピュータに実行させるためのコンピュータプログラムが記録媒体や通信により配布されれば、これをコンピュータにインストールして実行させることにより、該コンピュータをこの発明に係る音声符号化装置又は音声復号装置として機能させることも可能である。
For example, the description has been made assuming that a mobile phone is used as the speech encoding /
すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。 That is, the said embodiment is for description and does not restrict | limit the scope of the present invention. Therefore, those skilled in the art can employ embodiments in which each or all of these elements are replaced with equivalent ones, and these embodiments are also included in the scope of the present invention.
111・・・実施形態1に係る音声符号化装置、113・・・実施形態2に係る音声符号化装置、115・・・実施形態3に係る音声符号化装置、121・・・マイクロフォン、123・・・A/D変換部、125・・・予測分析部、127・・・帯域フィルタ部、129・・・雑音判別部、131・・・符号化用Aスイッチ部、133・・・フラグ及びゲイン生成部、135・・・集計変換部、137・・・符号化部、139・・・送信部、141・・・予測分析用逆フィルタ算出器、143・・・第1帯域フィルタ、145・・・第2帯域フィルタ、147・・・第1雑音判別器、149・・・第2雑音判別器、151・・・第1Aスイッチ、153・・・第2Aスイッチ、155・・・第1フラグ生成及び第1ゲイン算出器、157・・・第2フラグ生成及び第2ゲイン算出器、159・・・フラグ及び雑音ゲイン集計器、161・・・非雑音残差信号集計器、162・・・非雑音帯域切り出し器、163・・・スペクトル変換器、165・・・符号化用Cスイッチ部、167・・・非雑音帯域決定器、169・・・Band Elimination Filter、171・・・第1Cスイッチ、173・・・第2Cスイッチ、175・・・周波数変換係数切り分け器、177・・・符号化用Eスイッチ部、179・・・非雑音周波数変換係数集計器、181・・・第1Eスイッチ、183・・・第2Eスイッチ、211・・・実施形態4に係る音声復号装置、213・・・実施形態5に係る音声復号装置、221・・・受信部、223・・・復号部、225・・・フラグ存否判別部、227・・・復号用Gスイッチ部、229・・・帯域別雑音列生成部、231・・・集計逆変換部、233・・・残差信号復元部、235・・・合成用フィルタ算出部、237・・・合成用フィルタ部、239・・・D/A変換部、241・・・スピーカ、243・・・第1フラグ存否判別器、245・・・第2フラグ存否判別器、247・・・第1Gスイッチ、249・・・第2Gスイッチ、251・・・第1雑音列生成器、253・・・第2雑音列生成器、255・・・周波数変換係数集計及び補充器、257・・・スペクトル逆変換器、259・・・帯域別定数周波数変換係数生成部、261・・・一括集計逆変換部、263・・・第1定数周波数変換係数生成器、265・・・第2定数周波数変換係数生成器、267・・・周波数変換係数集計器、311・・・実施形態6に係る音声符号化兼復号装置、321・・・CPU、323・・・ROM、325・・・記憶部、327・・・無線通信部、329・・・音声処理部、331・・・操作キー入力処理部、333・・・システムバス、335・・・アンテナ、337・・・操作キー、339・・・RAM、341・・・ハードディスク
111... Speech encoding apparatus according to
Claims (10)
前記残差信号を帯域別残差信号に分割する帯域別残差信号生成部と、
前記残差信号について帯域毎に該帯域が雑音帯域か否かを判別する雑音判別部と、
前記雑音判別部により雑音帯域であると判別された前記帯域について該帯域が雑音帯域であることを示すフラグを生成するとともに該帯域の帯域別残差信号のゲインを求めるフラグ生成部と、
前記雑音判別部により雑音帯域ではないと判別された前記帯域の前記帯域別残差信号を実時間領域において重ね合わせてから周波数変換して、非雑音帯域における周波数変換係数を生成する非雑音帯域変換部と、
前記予測分析部で得られた予測係数と前記フラグ生成部で得られたフラグとゲインと前記非雑音帯域変換部で生成された周波数変換係数とを符号化する符号化部と、
を備える音声符号化装置。 A prediction analysis unit that decomposes a speech signal into a prediction coefficient and a residual signal by prediction analysis;
A residual signal generator for each band that divides the residual signal into residual signals for each band;
A noise discriminating unit that discriminates whether or not the band is a noise band for each band of the residual signal;
A flag generating unit for generating a flag indicating that the band is a noise band for the band determined to be a noise band by the noise determining unit and obtaining a gain of a residual signal for each band of the band ;
Non-noise band conversion for generating a frequency conversion coefficient in a non-noise band by superimposing the band-specific residual signals of the band determined not to be a noise band by the noise determination unit in the real-time domain and then performing frequency conversion And
An encoding unit that encodes the prediction coefficient obtained by the prediction analysis unit, the flag and gain obtained by the flag generation unit, and the frequency conversion coefficient generated by the non-noise band conversion unit ;
A speech encoding device comprising:
前記残差信号を周波数変換して周波数変換係数を生成する全帯域変換部と、
前記残差信号を帯域別残差信号に分割する帯域別残差信号生成部と、
前記残差信号について帯域毎に該帯域が雑音帯域か否かを判別する雑音判別部と、
前記雑音判別部により雑音帯域であると判別された前記帯域について該帯域が雑音帯域であることを示すフラグを生成するとともに該帯域の帯域別残差信号のゲインを求めるフラグ生成部と、
前記全帯域変換部で得られた周波数変換係数から、前記雑音判別部により雑音帯域ではないと判別された前記帯域の周波数変換係数を集計する集計手段と、
前記予測分析部で得られた予測係数と前記フラグ生成部で得られたフラグとゲインと前記集計手段で集計された周波数変換係数とを符号化する符号化部と、
を備える音声符号化装置。 A prediction analysis unit that decomposes a speech signal into a prediction coefficient and a residual signal by prediction analysis;
A full-band conversion unit that frequency-converts the residual signal to generate a frequency conversion coefficient;
A residual signal generator for each band that divides the residual signal into residual signals for each band;
A noise discriminating unit that discriminates whether or not the band is a noise band for each band of the residual signal;
A flag generating unit for generating a flag indicating that the band is a noise band for the band determined to be a noise band by the noise determining unit and obtaining a gain of a residual signal for each band of the band ;
From the frequency conversion coefficients obtained by the all-band conversion unit, a totaling unit that totalizes the frequency conversion coefficients of the band determined not to be a noise band by the noise determination unit,
An encoding unit that encodes the prediction coefficient obtained by the prediction analysis unit, the flag and gain obtained by the flag generation unit, and the frequency conversion coefficient tabulated by the tabulation unit ;
A speech encoding device comprising:
前記帯域毎に前記帯域別残差信号の自己相関関数の形状に基づき該帯域が雑音帯域か否かを判別する、
ことを特徴とする請求項1又は2に記載の音声符号化装置。 The noise discrimination unit is
Determining whether or not the band is a noise band based on the shape of the autocorrelation function of the band-specific residual signal for each band;
The speech encoding apparatus according to claim 1 or 2 , characterized in that
MLSA(Mel Log Spectrum Approximation)分析により前記予測係数としてMLSAフィルタ係数を求め、該MLSAフィルタ係数により定義される逆フィルタを用いて前記残差信号を求める、
ことを特徴とする請求項1乃至3の何れか1項に記載の音声符号化装置。 The prediction analysis unit
An MLSA filter coefficient is obtained as the prediction coefficient by MLSA (Mel Log Spectrum Approximation) analysis, and the residual signal is obtained using an inverse filter defined by the MLSA filter coefficient.
The speech coding apparatus according to any one of claims 1 to 3 , wherein
線形予測分析により前記予測係数として線形予測係数を求め、該線型予測係数により定義される逆フィルタを用いて前記残差信号を求める、
ことを特徴とする請求項1乃至3の何れか1項に記載の音声符号化装置。 The prediction analysis unit
A linear prediction coefficient is obtained as the prediction coefficient by linear prediction analysis, and the residual signal is obtained using an inverse filter defined by the linear prediction coefficient.
The speech coding apparatus according to any one of claims 1 to 3 , wherein
前記符号から、前記予測係数、前記フラグ、前記ゲイン、及び、前記非雑音帯域における周波数変換係数、を復号する復号部と、
前記フラグにより雑音帯域であることが示されている帯域において帯域毎に前記ゲインにより振幅が調整された雑音列を生成する雑音列生成部と、
前記フラグにより雑音帯域であることが示されている帯域においては当該帯域における周波数変換係数を全て0として記憶し、前記非雑音帯域においては前記復号された周波数変換係数を記憶することで全帯域の周波数変換係数を生成し、この生成された周波数変換係数をスペクトル逆変換して非雑音帯域における残差信号を求める逆変換部と、
前記雑音列生成部で生成された雑音列と前記逆変換部で求められた非雑音帯域における残差信号とを重ね合わせて復元残差信号を生成する残差信号復元部と、
前記復号部で復号された予測係数と前記残差信号復元部で生成された復元残差信号とを合成することにより復元音声信号を生成する合成部と、
を備える音声復号装置。 Prediction coefficient generated from speech signal by prediction analysis, flag indicating that specific band of residual signal generated from speech signal by prediction analysis is noise band, gain of residual signal by band in noise band And a receiving unit that receives a code that is a result of encoding a frequency conversion coefficient in a non-noise band ;
A decoding unit that decodes the prediction coefficient, the flag, the gain, and the frequency transform coefficient in the non-noise band from the code;
A noise string generation unit that generates a noise string whose amplitude is adjusted by the gain for each band in a band indicated by the flag to be a noise band;
In the band indicated by the flag as a noise band, all the frequency conversion coefficients in the band are stored as 0, and in the non-noise band, the decoded frequency conversion coefficient is stored to store the entire band. An inverse transform unit that generates a frequency transform coefficient and inversely transforms the generated frequency transform coefficient to obtain a residual signal in a non-noise band ;
A residual signal restoration unit that generates a restored residual signal by superimposing a noise sequence generated by the noise sequence generation unit and a residual signal in a non-noise band obtained by the inverse transformation unit ;
A synthesizing unit that generates a restored speech signal by synthesizing the prediction coefficient decoded by the decoding unit and the restored residual signal generated by the residual signal restoring unit ;
A speech decoding apparatus comprising:
前記残差信号を帯域別残差信号に分割する帯域別残差信号生成ステップと、
前記残差信号について帯域毎に該帯域が雑音帯域か否かを判別する雑音判別ステップと、
前記雑音判別ステップにおいて雑音帯域であると判別された前記帯域について該帯域が雑音帯域であることを示すフラグを生成するとともに該帯域の帯域別残差信号のゲインを求めるフラグ生成ステップと、
前記雑音判別ステップにおいて雑音帯域ではないと判別された前記帯域の前記帯域別残差信号を実時間領域において重ね合わせてから周波数変換して、非雑音帯域における周波数変換係数を生成する非雑音帯域変換ステップと、
前記予測分析ステップで得られた予測係数と前記フラグ生成ステップで得られたフラグとゲインと前記非雑音帯域変換ステップで得られた周波数変換係数とを符号化する符号化ステップと、
から構成される音声符号化方法。 A predictive analysis step that decomposes the speech signal into predictive coefficients and residual signals by predictive analysis;
A band-specific residual signal generating step of dividing the residual signal into band-specific residual signals;
A noise determination step for determining whether the band is a noise band for each band of the residual signal;
A flag generating step for generating a flag indicating that the band is a noise band for the band determined to be a noise band in the noise determining step, and obtaining a gain of the band-specific residual signal of the band ;
Non-noise band conversion that generates a frequency conversion coefficient in a non-noise band by superimposing the band-specific residual signals in the band determined not to be a noise band in the noise determination step in the real-time domain and then performing frequency conversion Steps,
An encoding step for encoding the prediction coefficient obtained in the prediction analysis step, the flag and gain obtained in the flag generation step, and the frequency conversion coefficient obtained in the non-noise band conversion step ;
A speech encoding method comprising:
前記符号から、前記予測係数、前記フラグ、前記ゲイン、及び、前記非雑音帯域における周波数変換係数、を復号する復号ステップと、
前記フラグにより雑音帯域であることが示されている帯域において帯域毎に前記ゲインにより振幅が調整された雑音列を生成する雑音列生成ステップと、
前記フラグにより雑音帯域であることが示されている帯域においては当該帯域における周波数変換係数を全て0として記憶し、前記非雑音帯域においては前記復号された周波数変換係数を記憶することで全帯域の周波数変換係数を生成し、この生成された周波数変換係数をスペクトル逆変換して非雑音帯域における残差信号を求める逆変換ステップと、
前記雑音列生成ステップで生成された雑音列と前記逆変換ステップで求められた非雑音帯域における残差信号とを重ね合わせて復元残差信号を生成する残差信号復元ステップと、
前記復号ステップで復号された予測係数と前記残差信号復元ステップで生成された復元残差信号とを合成することにより復元音声信号を生成する合成ステップと、
から構成される音声復号方法。 Prediction coefficient generated from speech signal by prediction analysis, flag indicating that specific band of residual signal generated from speech signal by prediction analysis is noise band, gain of residual signal by band in noise band and a receiving step of receiving a code that is the result of the frequency transform coefficients, but coded in a non-noise band,
Decoding the prediction coefficient, the flag, the gain, and the frequency transform coefficient in the non-noise band from the code;
A noise sequence generating step for generating a noise sequence whose amplitude is adjusted by the gain for each band in a band indicated by the flag to be a noise band;
In the band indicated by the flag as a noise band, all the frequency conversion coefficients in the band are stored as 0, and in the non-noise band, the decoded frequency conversion coefficient is stored to store the entire band. An inverse transform step for generating a frequency transform coefficient and performing a spectrum inverse transform on the generated frequency transform coefficient to obtain a residual signal in a non-noise band ;
A residual signal restoration step of generating a restored residual signal by superimposing the noise sequence generated in the noise sequence generation step and the residual signal in the non-noise band obtained in the inverse transformation step ;
A synthesis step of generating a restored speech signal by synthesizing the prediction coefficient decoded in the decoding step and the restored residual signal generated in the residual signal restoration step ;
A speech decoding method comprising:
音声信号を予測分析により予測係数と残差信号とに分解する予測分析ステップと、
前記残差信号を帯域別残差信号に分割する帯域別残差信号生成ステップと、
前記残差信号について帯域毎に該帯域が雑音帯域か否かを判別する雑音判別ステップと、
前記雑音判別ステップにおいて雑音帯域であると判別された前記帯域について該帯域が雑音帯域であることを示すフラグを生成するとともに該帯域の帯域別残差信号のゲインを求めるフラグ生成ステップと、
前記雑音判別ステップにおいて雑音帯域ではないと判別された前記帯域の前記帯域別残差信号を実時間領域において重ね合わせてから周波数変換して、非雑音帯域における周波数変換係数を生成する非雑音帯域変換ステップと、
前記予測分析ステップで得られた予測係数と前記フラグ生成ステップで得られたフラグとゲインと前記非雑音帯域変換ステップで得られた周波数変換係数とを符号化する符号化ステップと、
を実行させるコンピュータプログラム。 On the computer,
A predictive analysis step that decomposes the speech signal into predictive coefficients and residual signals by predictive analysis;
A band-specific residual signal generating step of dividing the residual signal into band-specific residual signals;
A noise determination step for determining whether the band is a noise band for each band of the residual signal;
A flag generating step for generating a flag indicating that the band is a noise band for the band determined to be a noise band in the noise determining step, and obtaining a gain of the band-specific residual signal of the band ;
Non-noise band conversion that generates a frequency conversion coefficient in a non-noise band by superimposing the band-specific residual signals in the band determined not to be a noise band in the noise determination step in the real-time domain and then performing frequency conversion Steps,
An encoding step for encoding the prediction coefficient obtained in the prediction analysis step, the flag and gain obtained in the flag generation step, and the frequency conversion coefficient obtained in the non-noise band conversion step ;
A computer program that executes
予測分析により音声信号から生成された予測係数、該予測分析により該音声信号から生成された残差信号の特定の帯域が雑音帯域であることを示すフラグ、雑音帯域における帯域別残差信号のゲイン、及び、非雑音帯域における周波数変換係数、が符号化された結果である符号を受信する受信ステップと、
前記符号から、前記予測係数、前記フラグ、前記ゲイン、及び、前記非雑音帯域における周波数変換係数、を復号する復号ステップと、
前記フラグにより雑音帯域であることが示されている帯域において帯域毎に前記ゲインにより振幅が調整された雑音列を生成する雑音列生成ステップと、
前記フラグにより雑音帯域であることが示されている帯域においては当該帯域における周波数変換係数を全て0として記憶し、前記非雑音帯域においては前記復号された周波数変換係数を記憶することで全帯域の周波数変換係数を生成し、この生成された周波数変換係数をスペクトル逆変換して非雑音帯域における残差信号を求める逆変換ステップと、
前記雑音列生成ステップで生成された雑音列と前記逆変換ステップで求められた非雑音帯域における残差信号とを重ね合わせて復元残差信号を生成する残差信号復元ステップと、
前記復号ステップで復号された予測係数と前記残差信号復元ステップで生成された復元残差信号とを合成することにより復元音声信号を生成する合成ステップと、
を実行させるコンピュータプログラム。 On the computer,
Prediction coefficient generated from speech signal by prediction analysis, flag indicating that specific band of residual signal generated from speech signal by prediction analysis is noise band, gain of residual signal by band in noise band and a receiving step of receiving a code that is the result of the frequency transform coefficients, but coded in a non-noise band,
Decoding the prediction coefficient, the flag, the gain, and the frequency transform coefficient in the non-noise band from the code;
A noise sequence generating step for generating a noise sequence whose amplitude is adjusted by the gain for each band in a band indicated by the flag to be a noise band;
In the band indicated by the flag as a noise band, all the frequency conversion coefficients in the band are stored as 0, and in the non-noise band, the decoded frequency conversion coefficient is stored to store the entire band. An inverse transform step for generating a frequency transform coefficient and performing a spectrum inverse transform on the generated frequency transform coefficient to obtain a residual signal in a non-noise band ;
A residual signal restoration step of generating a restored residual signal by superimposing the noise sequence generated in the noise sequence generation step and the residual signal in the non-noise band obtained in the inverse transformation step ;
A synthesis step of generating a restored speech signal by synthesizing the prediction coefficient decoded in the decoding step and the restored residual signal generated in the residual signal restoration step ;
A computer program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006325696A JP4935329B2 (en) | 2006-12-01 | 2006-12-01 | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006325696A JP4935329B2 (en) | 2006-12-01 | 2006-12-01 | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008139562A JP2008139562A (en) | 2008-06-19 |
JP4935329B2 true JP4935329B2 (en) | 2012-05-23 |
Family
ID=39601097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006325696A Expired - Fee Related JP4935329B2 (en) | 2006-12-01 | 2006-12-01 | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4935329B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8032359B2 (en) * | 2007-02-14 | 2011-10-04 | Mindspeed Technologies, Inc. | Embedded silence and background noise compression |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05276049A (en) * | 1991-11-21 | 1993-10-22 | Kokusai Electric Co Ltd | Voice coding method and its device |
JPH07334198A (en) * | 1994-06-14 | 1995-12-22 | Matsushita Electric Ind Co Ltd | Voice encoding device |
JP3531780B2 (en) * | 1996-11-15 | 2004-05-31 | 日本電信電話株式会社 | Voice encoding method and decoding method |
JP3282595B2 (en) * | 1998-11-20 | 2002-05-13 | 日本電気株式会社 | Voice encoding / decoding device and communication device |
JP3963850B2 (en) * | 2003-03-11 | 2007-08-22 | 富士通株式会社 | Voice segment detection device |
FI119533B (en) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Coding of audio signals |
-
2006
- 2006-12-01 JP JP2006325696A patent/JP4935329B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008139562A (en) | 2008-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8010348B2 (en) | Adaptive encoding and decoding with forward linear prediction | |
JP6789365B2 (en) | Voice coding device and method | |
US9837092B2 (en) | Classification between time-domain coding and frequency domain coding | |
CN101681627B (en) | Signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
US8862463B2 (en) | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods | |
JP4607334B2 (en) | Distributed speech recognition system | |
JP4380669B2 (en) | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program | |
EP3249645B1 (en) | Signal coding and decoding methods and devices | |
WO2001059757A2 (en) | Method and apparatus for compression of speech encoded parameters | |
KR101019398B1 (en) | Excitation Processing in Audio Coding and Decoding | |
EP2593937A1 (en) | Audio encoder and decoder and methods for encoding and decoding an audio signal | |
KR20190133302A (en) | Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program | |
JP2023166423A (en) | Spectral shape estimation from mdct coefficients | |
EP1121686B1 (en) | Speech parameter compression | |
JP4935329B2 (en) | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program | |
EP3133600B1 (en) | Codec method, device and system | |
JP5119716B2 (en) | Speech coding apparatus, speech coding method, and program | |
JP4935280B2 (en) | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program | |
Sun et al. | Speech compression | |
WO2008001991A1 (en) | Apparatus and method for extracting noise-robust speech recognition vector by sharing preprocessing step used in speech coding | |
JP5098271B2 (en) | Speech coding apparatus, speech coding method, and program | |
Burge et al. | An efficient coding of the prediction residual | |
Aşkın | Düşük Bit Hızlarında Konuşma Kodlama Ve Uygulamaları | |
JP2007179072A (en) | Sound processing device, sound processing method, sound processing program, matching processor, matching processing method and matching processing program | |
JP2005258478A (en) | Encoding device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120206 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4935329 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |