JP4907522B2 - Speech coding apparatus and speech coding method - Google Patents
Speech coding apparatus and speech coding method Download PDFInfo
- Publication number
- JP4907522B2 JP4907522B2 JP2007514799A JP2007514799A JP4907522B2 JP 4907522 B2 JP4907522 B2 JP 4907522B2 JP 2007514799 A JP2007514799 A JP 2007514799A JP 2007514799 A JP2007514799 A JP 2007514799A JP 4907522 B2 JP4907522 B2 JP 4907522B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- signal
- encoding
- channel signal
- encoded data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 62
- 239000010410 layer Substances 0.000 claims description 51
- 239000012792 core layer Substances 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 description 50
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 33
- 230000005284 excitation Effects 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 101100080600 Schizosaccharomyces pombe (strain 972 / ATCC 24843) nse6 gene Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオ音声のための音声符号化装置および音声符号化方法に関する。 The present invention relates to a speech encoding apparatus and speech encoding method, and more particularly to a speech encoding apparatus and speech encoding method for stereo speech.
移動体通信やIP通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号化が必須となる。 With the widening of the transmission band in mobile communication and IP communication and the diversification of services, the need for higher sound quality and higher presence in voice communication is increasing. For example, in the future, hands-free calls in videophone services, voice communications in videoconferencing, multipoint voice communications in which multiple speakers talk at the same time at multiple locations, and the ambient sound environment while maintaining a sense of reality Demand for voice communications that can be transmitted is expected to increase. In that case, it is desired to realize audio communication using stereo sound that has a sense of presence than a monaural signal and can recognize the utterance positions of a plurality of speakers. In order to realize such audio communication using stereo sound, it is essential to encode stereo sound.
また、IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化方式が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。スケーラブルな構成を有する音声符号化方式における符号化処理は、階層化されており、コアレイヤに対応するものと拡張レイヤに対応するものとを含む。したがって、その符号化処理によって生成される符号化データも、コアレイヤの符号化データと拡張レイヤの符号化データとを含む。 In addition, in voice data communication on an IP network, a voice coding system having a scalable configuration is desired for traffic control on the network and multicast communication. A scalable configuration refers to a configuration in which audio data can be decoded even from partial encoded data on the receiving side. The encoding process in the speech encoding method having a scalable configuration is hierarchized, and includes one corresponding to the core layer and one corresponding to the enhancement layer. Therefore, encoded data generated by the encoding process also includes encoded data of the core layer and encoded data of the enhancement layer.
ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号化データの一部を用いたモノラル信号の復号とを受信側において選択可能な、モノラル−ステレオ間でのスケーラブル構成(モノラル−ステレオ・スケーラブル構成)を有する音声符号化方式が望まれる。 Even when stereo audio is encoded and transmitted, a scalable configuration between monaural and stereo (monaural-) that enables the reception side to select decoding of a stereo signal and decoding of a monaural signal using a part of the encoded data. A speech coding scheme having a stereo scalable configuration is desired.
このような音声符号化方式に基づく音声符号化方法としては、例えば、チャネル(以下、「ch」と略記することがある)間の信号の予測(第1ch信号から第2ch信号の予測、または、第2ch信号から第1ch信号の予測)を、チャネル相互間のピッチ予測により行う、すなわち、2チャネル間の相関を利用して符号化を行うものがある(非特許文献1参照)。
しかしながら、上記従来の音声符号化方法では、双方のチャネル間の相関が小さい場合、十分な予測性能(予測ゲイン)が得られず符号化効率が劣化することがある。 However, in the above conventional speech coding method, when the correlation between both channels is small, sufficient prediction performance (prediction gain) cannot be obtained and coding efficiency may deteriorate.
本発明の目的は、双方のチャネル間の相関が小さい場合でも効率的にステレオ音声を符号化することができる音声符号化装置および音声符号化方法を提供することである。 An object of the present invention is to provide a speech encoding apparatus and speech encoding method that can efficiently encode stereo speech even when the correlation between both channels is small.
本発明の音声符号化装置は、第1チャネル信号および第2チャネル信号を含むステレオ信号を符号化する音声符号化装置において、前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、前記第1チャネル信号および前記第2チャネル信号の一方を選択する選択手段と、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化手段と、を有し、前記選択手段は、前記第1チャネル信号および前記第2チャネル信号に対する符号化歪み、または、前記第1チャネル信号および前記第2チャネル信号に対応するチャネル内相関度、に基づき、前記第1チャネル信号および前記第2チャネル信号の一方をフレーム毎に選択し、前記符号化手段は、前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化する構成を採る。 The speech coding apparatus according to the present invention generates a monaural signal using the first channel signal and the second channel signal in a speech coding apparatus that encodes a stereo signal including a first channel signal and a second channel signal. Monaural signal generating means, selecting means for selecting one of the first channel signal and the second channel signal, encoding the generated monaural signal to obtain core layer encoded data, and selecting the selected channel signal encodes have a, encoding means for obtaining an extended layer encoded data corresponding to the core layer encoded data, said selection means, coding distortion for the first channel signal and the second channel signal, or, Based on the intra-channel correlation corresponding to the first channel signal and the second channel signal, the first channel signal One was selected for each frame of the Yaneru signal and the second channel signal, the encoding means, a configuration for encoding the monaural signal and the channel signal selected for each of the frame for each of the frames.
本発明の音声符号化方法は、第1チャネル信号および第2チャネル信号を含むステレオ信号を符号化する音声符号化方法において、前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成するステップと、前記第1チャネル信号および前記第2チャネル信号の一方を選択する選択ステップと、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化ステップと、を含み、前記選択ステップでは、前記第1チャネル信号および前記第2チャネル信号に対する符号化歪み、または、前記第1チャネル信号および前記第2チャネル信号に対応するチャネル内相関度、に基づき、前記第1チャネル信号および前記第2チャネル信号の一方をフレーム毎に選択し、前記符号化ステップでは、前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化するようにした。
The speech encoding method of the present invention is a speech encoding method for encoding a stereo signal including a first channel signal and a second channel signal, and generates a monaural signal using the first channel signal and the second channel signal. a step of a selection step of selecting one of the first channel signal and the second channel signal, the obtained core layer encoded data generated monaural signal is encoded, and encodes the selected channel signal An encoding step of obtaining enhancement layer encoded data corresponding to the core layer encoded data , wherein the selecting step includes encoding distortion for the first channel signal and the second channel signal, or the first channel Signal and an intra-channel correlation corresponding to the second channel signal, Selecting one of the channel signal and the second channel signal for each frame, in the encoding step, to the monaural signal and the channel signal selected for each of the frames to be encoded for each said frame.
本発明によれば、ステレオ信号の複数チャネル信号間の相関が小さい場合でも効率的にステレオ音声を符号化することができる。 According to the present invention, stereo audio can be efficiently encoded even when the correlation between a plurality of channel signals of a stereo signal is small.
以下、モノラル−ステレオ・スケーラブル構成を有する音声符号化に関する本発明の実施の形態について、添付図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention relating to speech coding having a monaural-stereo scalable configuration will be described in detail with reference to the accompanying drawings.
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図である。図1の音声符号化装置100は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ符号化部102と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ符号化部104と、を有する。以下、各構成要素はフレーム単位で動作することを前提として説明する。
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to
コアレイヤ符号化部102は、モノラル信号生成部110およびモノラル信号符号化部112を有する。また、拡張レイヤ符号化部104は、符号化チャネル選択部120、第1ch符号化部122、第2ch符号化部124およびスイッチ部126を有する。
The core layer encoding unit 102 includes a monaural
コアレイヤ符号化部102において、モノラル信号生成部110は、ステレオ入力音声信号に含まれる第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)(但し、n=0〜NF-1;NFはフレーム長)から、式(1)に示す関係に基づいてモノラル信号s_mono(n)を生成し、モノラル信号符号化部112に出力する。ここで、本実施の形態で説明するステレオ信号は、2つのチャネルの信号、すなわち第1チャネルの信号および第2チャネルの信号から成る。
モノラル信号符号化部112は、モノラル信号s_mono(n)をフレーム毎に符号化する。符号化には任意の符号化方式が用いられて良い。モノラル信号s_mono(n)の符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。より具体的には、コアレイヤ符号化データは、後述の拡張レイヤ符号化データおよび符号化チャネル選択情報と多重され、送信符号化データとして音声符号化装置100から出力される。
The monaural
また、モノラル信号符号化部112は、モノラル信号s_mono(n)を復号し、それによって得られるモノラル復号音声信号を拡張レイヤ符号化部104の第1ch符号化部122および第2ch符号化部124に出力する。
Also, the monaural
拡張レイヤ符号化部104において、符号化チャネル選択部120は、第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)を用いて、第1チャネルおよび第2チャネルのうち、拡張レイヤでの符号化の対象のチャネルとして最適なチャネルを、所定の選択基準に基づき選択する。最適なチャネルは、フレーム毎に選択される。ここで、所定の選択基準は、拡張レイヤ符号化を高効率にまたは高音質(低符号化歪み)に実現できるための基準である。符号化チャネル選択部120は、選択されたチャネルを示す符号化チャネル選択情報を生成する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、前述のコアレイヤ符号化データおよび後述の拡張レイヤ符号化データと多重される。
In the enhancement layer coding unit 104, the coding
なお、符号化チャネル選択部120は、第1入力音声信号s_ch1(n)および第2入力音声信号s_ch2(n)を用いる代わりに、第1ch符号化部122および第2ch符号化部124での符号化の過程で得られる任意のパラメータまたは信号もしくは符号化の結果(すなわち、後述の第1ch符号化データおよび第2ch符号化データ)を用いても良い。
Note that the encoding
第1ch符号化部122は、第1ch入力音声信号およびモノラル復号音声信号を用いて第1ch入力音声信号をフレーム毎に符号化し、それによって得られた第1ch符号化データをスイッチ部126に出力する。
The first
また、第1ch符号化部122は、第1ch符号化データを復号して、第1ch復号音声信号を得る。但し、本実施の形態では、第1ch符号化部122で得られる第1ch復号音声信号は、図示を省略する。
In addition, the first
第2ch符号化部124は、第2ch入力音声信号およびモノラル復号音声信号を用いて第2ch入力音声信号をフレーム毎に符号化し、それによって得られた第2ch符号化データをスイッチ部126に出力する。
Second
また、第2ch符号化部124は、第2ch符号化データを復号して、第2ch復号音声信号を得る。但し、本実施の形態では、第2ch符号化部124で得られる第2ch復号音声信号は、図示を省略する。
Further, the second
スイッチ部126は、符号化チャネル選択情報に従って、第1ch符号化データおよび第2ch符号化データのうちいずれか一方をフレーム毎に選択的に出力する。出力される符号化データは、符号化チャネル選択部120によって選択されたチャネルの符号化データである。よって、選択されたチャネルが、第1チャネルから第2チャネルに、あるいは、第2チャネルから第1チャネルに切り替わったとき、スイッチ部126から出力される符号化データも、第1ch符号化データから第2ch符号化データに、あるいは、第2ch符号化データから第1ch符号化データに切り替わる。
The
ここで、前述したモノラル信号符号化部112、第1ch符号化部122、第2ch符号化部124およびスイッチ部126の組み合わせは、モノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化してコアレイヤ符号化データに対応する拡張レイヤ符号化データを得る、符号化部を構成する。
Here, the combination of the monaural
図2は、音声符号化装置100から出力された送信符号化データを受信符号化データとして受信し復号してモノラル復号音声信号およびステレオ復号音声信号を得ることができる音声復号化装置の構成を示すブロック図である。図2の音声復号化装置150は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ復号部152と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ復号部154と、を有する。
FIG. 2 shows a configuration of a speech decoding apparatus that can receive transmission decoded data output from
コアレイヤ復号部152は、モノラル信号復号部160を有する。モノラル信号復号部160は、受信した受信符号化データに含まれるコアレイヤ符号化データを復号して、モノラル復号音声信号sd_mono(n)を得る。モノラル復号音声信号sd_mono(n)は、後段の音声出力部(図示せず)、第1ch復号部172、第2ch復号部174、第1ch復号信号生成部176および第2ch復号信号生成部178に出力される。
The core layer decoding unit 152 includes a monaural
拡張レイヤ復号部154は、スイッチ部170、第1ch復号部172、第2ch復号部174、第1ch復号信号生成部176、第2ch復号信号生成部178およびスイッチ部180、182を有する。
The enhancement layer decoding unit 154 includes a
スイッチ部170は、受信符号化データに含まれる符号化チャネル選択情報を参照し、受信符号化データに含まれる拡張レイヤ符号化データを、選択されたチャネルに対応する復号部に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、拡張レイヤ符号化データは第1ch復号部172に出力され、選択されたチャネルが第2チャネルの場合は、拡張レイヤ符号化データは第2ch復号部174に出力される。
The
第1ch復号部172は、スイッチ部170から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第1ch復号音声信号sd_ch1(n)を復号し、第1ch復号音声信号sd_ch1(n)をスイッチ部180および第2ch復号信号生成部178に出力する。
When the enhancement layer encoded data is input from the
第2ch復号部174は、スイッチ部170から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第2ch復号音声信号sd_ch2(n)を復号し、第2ch復号音声信号sd_ch2(n)をスイッチ部182および第1ch復号信号生成部176に出力する。
When the enhancement layer encoded data is input from the
第1ch復号信号生成部176は、第2ch復号部174から第2ch復号音声信号sd_ch2(n)が入力されたとき、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式(2)に示す関係に基づいて、第1ch復号音声信号sd_ch1(n)を生成する。生成された第1ch復号音声信号sd_ch1(n)はスイッチ部180に出力される。
第2ch復号信号生成部178は、第1ch復号部172から第1ch復号音声信号sd_ch1(n)が入力されたとき、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式(3)に示す関係に基づいて、第2ch復号音声信号sd_ch2(n)を生成する。生成された第2ch復号音声信号sd_ch2(n)はスイッチ部182に出力される。
スイッチ部180は、符号化チャネル選択情報に従って、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)および第1ch復号信号生成部176から入力された第1ch復号音声信号sd_ch1(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)が選択され出力される。一方、選択されたチャネルが第2チャネルの場合は、第1ch復号信号生成部176から入力された第1ch復号音声信号sd_ch1(n)が選択され出力される。
The
スイッチ部182は、符号化チャネル選択情報に従って、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)および第2ch復号信号生成部178から入力された第2ch復号音声信号sd_ch2(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、第2ch復号信号生成部178から入力された第2ch復号音声信号sd_ch2(n)が選択され出力される。一方、選択されたチャネルが第2チャネルの場合は、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)が選択され出力される。
The
スイッチ部180から出力される第1ch復号音声信号sd_ch1(n)およびスイッチ部182から出力される第2ch復号音声信号sd_ch2(n)は、ステレオ復号音声信号として後段の音声出力部(図示せず)に出力される。
The first channel decoded audio signal sd_ch1 (n) output from the
このように、本実施の形態によれば、第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)から生成されたモノラル信号s_mono(n)を符号化してコアレイヤ符号化データを得るとともに、第1チャネルおよび第2チャネルのうち選択されたチャネルの入力音声信号(第1ch入力音声信号s_ch1(n)または第2ch入力音声信号s_ch2(n))を符号化して拡張レイヤ符号化データを得るため、ステレオ信号の複数チャネル間の相関が小さい場合に予測性能(予測ゲイン)が不十分になることを回避することができ、効率的にステレオ音声を符号化することができる。 As described above, according to the present embodiment, the monaural signal s_mono (n) generated from the first channel input audio signal s_ch1 (n) and the second channel input audio signal s_ch2 (n) is encoded to generate the core layer encoded data. And encoding the input audio signal (first channel input audio signal s_ch1 (n) or second channel input audio signal s_ch2 (n)) of the channel selected from the first channel and the second channel, thereby obtaining enhancement layer encoded data. Therefore, it is possible to avoid that the prediction performance (prediction gain) becomes insufficient when the correlation between the plurality of channels of the stereo signal is small, and it is possible to efficiently encode the stereo sound.
(実施の形態2)
図3は、本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図である。
(Embodiment 2)
FIG. 3 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 2 of the present invention.
なお、図3の音声符号化装置200は、実施の形態1で説明した音声符号化装置100と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち実施の形態1で説明したものと同様のものには、実施の形態1で用いたものと同一の参照符号を付し、その構成要素についての詳細な説明を省略する。
Note that
また、音声符号化装置200から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
Also, transmission encoded data output from
音声符号化装置200は、コアレイヤ符号化部102および拡張レイヤ符号化部202を有する。拡張レイヤ符号化部202は、第1ch符号化部122、第2ch符号化部124、スイッチ部126および符号化チャネル選択部210を有する。
符号化チャネル選択部210は、第2ch復号音声生成部212、第1ch復号音声生成部214、第1歪み算出部216、第2歪み算出部218および符号化チャネル決定部220を有する。
The encoding channel selection unit 210 includes a second channel decoded
第2ch復号音声生成部212は、モノラル信号符号化部112によって得られたモノラル復号音声信号および第1ch符号化部122によって得られた第1ch復号音声信号を用いて、前述の式(1)に示す関係に基づいて、第2ch推定信号としての第2ch復号音声信号を生成する。生成された第2ch復号音声信号は、第1歪み算出部216に出力される。
The second channel decoded
第1ch復号音声生成部214は、モノラル信号符号化部112によって得られたモノラル復号音声信号および第2ch符号化部124によって得られた第2ch復号音声信号を用いて、前述の式(1)に示す関係に基づいて、第1ch推定信号としての第1ch復号音声信号を生成する。生成された第1ch復号音声信号は、第2歪み算出部218に出力される。
The first channel decoded
前述した第2ch復号音声生成部212および第1ch復号音声生成部214の組み合わせは、推定信号生成部を構成する。
The combination of the second channel decoded
第1歪み算出部216は、第1ch符号化部122によって得られた第1ch復号音声信号および第2ch復号音声生成部212によって得られた第2ch復号音声信号を用いて、第1符号化歪みを算出する。第1符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第1チャネルを選択した場合に生じる2チャネル分の符号化歪みに相当する。算出された第1符号化歪みは、符号化チャネル決定部220に出力される。
The first
第2歪み算出部218は、第2ch符号化部124によって得られた第2ch復号音声信号および第1ch復号音声生成部214によって得られた第1ch復号音声信号を用いて、第2符号化歪みを算出する。第2符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第2チャネルを選択した場合に生じる2チャネル分の符号化歪みに相当する。算出された第2符号化歪みは、符号化チャネル決定部220に出力される。
The second
ここで、2チャネル分の符号化歪み(第1符号化歪みまたは第2符号化歪み)の算出方法としては、例えば次の2つの方法が挙げられる。1つは、各チャネルの復号音声信号(第1ch復号音声信号または第2ch復号音声信号)の、対応する入力音声信号(第1c
h入力音声信号または第2ch入力音声信号)に対する誤差パワーの比(信号対符号化歪み比)の2チャネル分の平均を、2チャネル分の符号化歪みとして求める方法である。もう1つは、前述した誤差パワーの2チャネル分の総和を、2チャネル分の符号化歪みとして求める方法である。
Here, as a method for calculating the coding distortion (first coding distortion or second coding distortion) for two channels, for example, the following two methods may be mentioned. One is a corresponding input audio signal (first c) of the decoded audio signal (first channel decoded audio signal or second channel decoded audio signal) of each channel.
In this method, the average of the error power ratio (signal to coding distortion ratio) for two channels with respect to the h input voice signal or the second channel input voice signal) is obtained as coding distortion for two channels. The other is a method for obtaining the sum of the error power for two channels as the coding distortion for two channels.
前述した第1歪み算出部216および第2歪み算出部218の組み合わせは、歪み算出部を構成する。また、この歪み算出部および前述した推定信号生成部の組み合わせは算出部を構成する。
The combination of the first
符号化チャネル決定部220は、第1符号化歪みの値および第2符号化歪みの値を相互比較し、第1符号化歪みおよび第2符号化歪みのうち、より小さい値を有するものを選択する。符号化チャネル決定部220は、選択された符号化歪みに対応するチャネルを、拡張レイヤでの符号化の対象チャネル(符号化チャネル)として選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部220は、第1符号化歪みが第2符号化歪みよりも小さい場合、第1チャネルを選択し、第2符号化歪みが第1符号化歪みよりも小さい場合、第2チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。
The coding
このように、本実施の形態によれば、符号化チャネルの選択基準として、符号化歪みの大きさを使用するため、拡張レイヤの符号化歪みを低減することができ、効率的にステレオ音声を符号化することができる。 Thus, according to the present embodiment, since the magnitude of the coding distortion is used as the coding channel selection criterion, the coding distortion of the enhancement layer can be reduced, and stereo audio can be efficiently generated. Can be encoded.
なお、本実施の形態では、対応する入力音声信号に対する各チャネルの復号音声信号の誤差パワーの比または総和を算出し、この算出結果を符号化歪みとして用いているが、その代わりに、第1ch符号化部122および第2ch符号化部124での符号化の過程で得られる符号化歪みを用いても良い。また、この符号化歪みは、聴覚重み付きの歪みであっても良い。
In the present embodiment, the ratio or sum of the error power of the decoded audio signal of each channel with respect to the corresponding input audio signal is calculated, and this calculation result is used as encoding distortion. You may use the encoding distortion obtained in the encoding process in the
(実施の形態3)
図4は、本発明の実施の形態3に係る音声符号化装置の構成を示すブロック図である。なお、図4の音声符号化装置300は、前述した実施の形態で説明した音声符号化装置100、200と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
(Embodiment 3)
FIG. 4 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 3 of the present invention. Note that
また、音声符号化装置300から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
Also, transmission encoded data output from
音声符号化装置300は、コアレイヤ符号化部102および拡張レイヤ符号化部302を有する。拡張レイヤ符号化部302は、符号化チャネル選択部310、第1ch符号化部312、第2ch符号化部314およびスイッチ部126を有する。
符号化チャネル選択部310は、図5に示すように、第1chチャネル内相関度算出部320、第2chチャネル内相関度算出部322および符号化チャネル決定部324を有する。
As illustrated in FIG. 5, the encoding
第1chチャネル内相関度算出部320は、第1ch入力音声信号に対する正規化最大自己相関係数値を用いて、第1チャネルのチャネル内相関度cor1を算出する。
The first channel intra-channel correlation
第2chチャネル内相関度算出部322は、第2ch入力音声信号に対する正規化最大自己相関係数値を用いて、第2チャネルのチャネル内相関度cor2を算出する。
The second channel intra-channel
なお、各チャネルのチャネル内相関度の算出には、各チャネルの入力音声信号に対する正規化最大自己相関係数値を用いる代わりに、各チャネルの入力音声信号に対するピッチ予測ゲイン値を用いたり、LPC(Linear Prediction Coding)予測残差信号に対する正規化最大自己相関係数値およびピッチ予測ゲイン値を用いたりすることができる。 For calculating the intra-channel correlation for each channel, instead of using the normalized maximum autocorrelation coefficient value for the input speech signal of each channel, the pitch prediction gain value for the input speech signal of each channel is used, or the LPC ( Linear Prediction Coding) normalized maximum autocorrelation coefficient value and pitch prediction gain value for the prediction residual signal can be used.
符号化チャネル決定部324は、チャネル内相関度cor1、cor2を相互比較し、これらのうち、より高い値を有するものを選択する。符号化チャネル決定部324は、選択されたチャネル内相関度に対応するチャネルを、拡張レイヤでの符号化チャネルとして選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部324は、チャネル内相関度cor1がチャネル内相関度cor2よりも高い場合、第1チャネルを選択し、チャネル内相関度cor2がチャネル内相関度cor1よりも高い場合、第2チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。
The encoded
第1ch符号化部312および第2ch符号化部314は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第1ch符号化部312および第2ch符号化部314のうちいずれか一方を「第Ach符号化部330」として示し、その内部構成について図6を用いて説明する。なお、「Ach」の「A」は1または2を表す。また、図中においておよび以下の説明において用いられる「B」も1または2を表す。但し、「A」が1の場合「B」は2であり、「A」が2の場合「B」は1である。
The first
第Ach符号化部330は、スイッチ部332、第Ach信号チャネル内予測部334、減算器336、338、第Ach予測残差信号符号化部340および第Bch推定信号生成部342を有する。
The Ach encoding unit 330 includes a
スイッチ部332は、第Ach予測残差信号符号化部340によって得られた第Ach復号音声信号、または、第Bch符号化部(図示せず)によって得られた第Ach推定信号を、符号化チャネル選択情報に従って第Ach信号チャネル内予測部334に出力する。具体的には、選択されたチャネルが第Aチャネルの場合は、第Ach復号音声信号が第Ach信号チャネル内予測部334に出力され、選択されたチャネルが第Bチャネルの場合は、第Ach推定信号が第Ach信号チャネル内予測部334に出力される。
The
第Ach信号チャネル内予測部334は、第Aチャネルのチャネル内予測を行う。チャネル内予測は、チャネル内の信号の相関性を利用して過去のフレームの信号から現在のフレームの信号を予測するものである。チャネル内予測の結果として、チャネル内予測信号Sp(n)およびチャネル内予測パラメータ量子化符号が得られる。例えば1次のピッチ予測フィルタを用いる場合、チャネル内予測信号Sp(n)は、次の式(4)によって算出される。
前述した過去のフレームの信号は、第Ach信号チャネル内予測部334の内部に設けられたチャネル内予測バッファ(第Achチャネル内予測バッファ)に保持される。また、第Achチャネル内予測バッファは、次フレームの信号の予測のために、スイッチ部332から入力された信号で更新される。チャネル内予測バッファの更新の詳細については後述する。
The above-mentioned past frame signals are held in an intra-channel prediction buffer (an A-ch intra-channel prediction buffer) provided in the intra-Ach signal
減算器336は、第Ach入力音声信号からモノラル復号音声信号を減算する。減算器338は、減算器336での減算によって得られた信号から、第Ach信号チャネル内予測部334でのチャネル内予測によって得られたチャネル内予測信号Sp(n)を減算する。減算器338での減算によって得られた信号、すなわち第Ach予測残差信号は、第Ach予測残差信号符号化部340に出力される。
The
第Ach予測残差信号符号化部340は、第Ach予測残差信号を任意の符号化方式で符号化する。この符号化によって、予測残差符号化データおよび第Ach復号音声信号が得られる。予測残差符号化データは、チャネル内予測パラメータ量子化符号とともに、第Ach符号化データとして出力される。第Ach復号音声信号は、第Bch推定信号生成部342およびスイッチ部332に出力される。
The Ach prediction residual
第Bch推定信号生成部342は、第Ach復号音声信号およびモノラル復号音声信号から、第Aチャネル符号化時の第Bch復号音声信号として第Bch推定信号を生成する。生成された第Bch推定信号は、図示されない第Bch符号化部のスイッチ部(スイッチ部332と同様)に出力される。
B-th channel estimation
次いで、チャネル内予測バッファの更新動作について説明する。ここでは、符号化チャネル選択部310によって第Aチャネルが選択された場合を例にとり、第Aチャネルのチャネル内予測バッファの更新動作例を図7を用いて説明し、第Bチャネルのチャネル内予測バッファの更新動作例を図8を用いて説明する。
Next, the update operation of the intra-channel prediction buffer will be described. Here, taking as an example the case where the A-th channel is selected by the encoded
図7に示す動作例では、第Ach予測残差信号符号化部340によって得られた、第iフレーム(iは任意の自然数)の第Ach復号音声信号を用いて、第Ach信号チャネル内予測部334の内部の第Achチャネル内予測バッファ351が更新される(ST101)。そして、更新された第Achチャネル内予測バッファ351は、次フレームである第i+1フレームについてのチャネル内予測に用いられる(ST102)。
In the operation example illustrated in FIG. 7, the Ach signal intra-channel prediction unit using the Ach decoded speech signal of the i-th frame (i is an arbitrary natural number) obtained by the Ath prediction residual
図8に示す動作例では、第iフレームの第Ach復号音声信号および第iフレームのモノラル復号音声信号を用いて、第iフレームの第Bch推定信号が生成される(ST201)。生成された第Bch推定信号は、第Ach符号化部330から図示されない第Bch符号化部に出力される。そして、第Bch符号化部において、第Bch推定信号は、スイッチ部(スイッチ部332と同様)を経由して第Bch信号チャネル内予測部(第Ach信号チャネル内予測部334と同様)に出力される。第Bch信号チャネル内予測部の内部に設けられた第Bchチャネル内予測バッファ352は、第Bch推定信号によって更新される(ST202)。そして、更新された第Bchチャネル内予測バッファ352は、第i+1フレームについてのチャネル内予測に用いられる(ST203)。 In the operation example shown in FIG. 8, the i-th frame Bch estimation signal is generated using the i-th frame Ach decoded audio signal and the i-frame monaural decoded audio signal (ST201). The generated Bch estimation signal is output from Ach encoding section 330 to a Bch encoding section (not shown). Then, in the Bch encoding unit, the Bch estimation signal is output to the Bch signal intra-channel prediction unit (similar to the Ach signal intra-channel prediction unit 334) via the switch unit (similar to the switch unit 332). The The intra-Bch channel prediction buffer 352 provided in the intra-Bch signal intra-channel prediction unit is updated with the Bch estimation signal (ST202). The updated Bch intra-channel prediction buffer 352 is used for intra-channel prediction for the (i + 1) th frame (ST203).
あるフレームにおいて、第Aチャネルが符号化チャネルとして選択された場合、第Bch符号化部では、第Bchチャネル内予測バッファ352の更新動作以外の動作は要求されないため、そのフレームにおいては第Bch入力音声信号の符号化を休止することができる。 When the A-th channel is selected as the coding channel in a certain frame, the B-th channel encoding unit does not require any operation other than the update operation of the intra-B-channel prediction buffer 352. Signal encoding can be paused.
このように、本実施の形態によれば、符号化チャネルの選択基準として、チャネル内相関度の高さを使用するため、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。 As described above, according to the present embodiment, since the high intra-channel correlation is used as the selection criterion for the encoded channel, it is possible to encode a channel signal having a high intra-channel correlation. Encoding efficiency by intra prediction can be improved.
なお、音声符号化装置300の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置300は、モノラル復号音声信号を減算器336に入力する代わりに、モノラル復号音声信号を用いて第Ach音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号を減算器336に入力する構成を、採用することができる。
Note that a component that performs inter-channel prediction can be added to the configuration of the
(実施の形態4)
図9は、本発明の実施の形態4に係る音声符号化装置の構成を示すブロック図である。
(Embodiment 4)
FIG. 9 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 4 of the present invention.
なお、図9の音声符号化装置400は、前述の実施の形態で説明した音声符号化装置100、200、300と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
Note that
また、音声符号化装置400から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
Also, transmission encoded data output from
音声符号化装置400は、コアレイヤ符号化部402および拡張レイヤ符号化部404を有する。コアレイヤ符号化部402は、モノラル信号生成部110およびモノラル信号CELP(Code Excited Linear Prediction)符号化部410を有する。拡張レイヤ符号化部404は、符号化チャネル選択部310、第1chCELP符号化部422、第2chCELP符号化部424およびスイッチ部126を有する。
コアレイヤ符号化部402において、モノラル信号CELP符号化部410は、モノラル信号生成部110によって生成されたモノラル信号に対してCELP符号化を行う。この符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。また、この符号化によって、モノラル駆動音源信号が得られる。さらに、モノラル信号CELP符号化部410は、モノラル信号を復号し、それによって得られるモノラル復号音声信号を出力する。コアレイヤ符号化データは、拡張レイヤ符号化データおよび符号化チャネル選択情報と多重される。また、コアレイヤ符号化データ、モノラル駆動音源信号およびモノラル復号音声信号は、第1chCELP符号化部422および第2chCELP符号化部424に出力される。
In the core layer encoding unit 402, the monaural signal
拡張レイヤ符号化部404において、第1chCELP符号化部422および第2chCELP符号化部424は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第1chCELP符号化部422および第2chCELP符号化部424のうちいずれか一方を「第AchCELP符号化部430」として示し、その内部構成について図10を用いて説明する。なお、前述したように、「Ach」の「A」は1または2を表し、図中においておよび以下の説明において用いられる「B」も1または2を表し、「A」が1の場合「B」は2であり、「A」が2の場合「B」は1である。
In enhancement layer encoding section 404, first ch
第AchCELP符号化部430は、第AchLPC(Linear Prediction Coding)分析部431、乗算器432、433、434、435、436、スイッチ部437、第Ach適応符号帳438、第Ach固定符号帳439、加算器440、合成フィルタ441、聴覚重み付け部442、歪最小化部443、第Ach復号部444、第Bch推定信号
生成部445、第AchLPC分析部446、第AchLPC予測残差信号生成部447および減算器448を有する。
The Ach CELP encoding unit 430 includes an Ach LPC (Linear Prediction Coding)
第AchCELP符号化部430において、第AchLPC分析部431は、第Ach入力音声信号に対するLPC分析を行い、それによって得られた第AchLPCパラメータを量子化する。第AchLPC分析部431は、第AchLPCパラメータとモノラル信号に対するLPCパラメータとの相関が一般に高いことを利用して、LPCパラメータの量子化に際して、コアレイヤ符号化データからモノラル信号量子化LPCパラメータを復号し、復号されたモノラル信号量子化LPCパラメータに対する第AchLPCパラメータの差分成分を量子化して、第AchLPC量子化符号を得る。第AchLPC量子化符号は、合成フィルタ441に出力される。また、第AchLPC量子化符号は、後述の第Ach駆動音源符号化データとともに第Ach符号化データとして出力される。差分成分の量子化を行うことにより、拡張レイヤのLPCパラメータの量子化を効率化することができる。
In the AchCELP encoding unit 430, the
第AchCELP符号化部430において、第Ach駆動音源符号化データは、第Ach駆動音源信号のモノラル駆動音源信号に対する残差成分を符号化することによって得られる。この符号化は、CELP符号化における音源探索によって実現される。 In the AchCELP encoding unit 430, the Ach drive excitation code data is obtained by encoding the residual component of the Ach drive excitation signal with respect to the monaural drive excitation signal. This encoding is realized by sound source search in CELP encoding.
つまり、第AchCELP符号化部430では、適応音源信号、固定音源信号およびモノラル駆動音源信号に、それぞれに対応するゲインが乗じられ、ゲイン乗算後のこれらの音源信号が加算され、その加算によって得られた駆動音源信号に対して、歪み最小化による閉ループ型音源探索(適応符号帳探索、固定符号帳探索およびゲイン探索)が行われる。そして、適応符号帳インデクス(適応音源インデクス)、固定符号帳インデクス(固定音源インデクス)ならびに適応音源信号、固定音源信号およびモノラル駆動音源信号に対するゲイン符号が、第Ach駆動音源符号化データとして出力される。コアレイヤの符号化、拡張レイヤの符号化および符号化チャネルの選択がフレーム毎に行われるのに対し、この音源探索は、フレームを複数の部分に分割することによって得られるサブフレーム毎に行われる。以下、この構成についてより具体的に説明する。 That is, the AchCELP encoding unit 430 multiplies the adaptive excitation signal, the fixed excitation signal, and the monaural driving excitation signal by the corresponding gain, adds these excitation signals after gain multiplication, and obtains the result by addition. A closed-loop type sound source search (adaptive codebook search, fixed codebook search, and gain search) by distortion minimization is performed on the drive sound source signal. Then, the adaptive codebook index (adaptive excitation index), fixed codebook index (fixed excitation index), and the gain code for the adaptive excitation signal, fixed excitation signal, and monaural driving excitation signal are output as the Ach driving excitation encoded data. . While the coding of the core layer, the coding of the enhancement layer, and the selection of the coding channel are performed for each frame, the sound source search is performed for each subframe obtained by dividing the frame into a plurality of parts. Hereinafter, this configuration will be described more specifically.
合成フィルタ441は、第AchLPC分析部431から出力された第AchLPC量子化符号を用いて、加算器440から出力された信号を駆動音源としてLPC合成フィルタによる合成を行う。この合成によって得られた合成信号は、減算器448に出力される。
The
減算器448は、第Ach入力音声信号から合成信号を減算することにより誤差信号を算出する。誤差信号は、聴覚重み付け部442に出力される。誤差信号は、符号化歪みに相当する。
The
聴覚重み付け部442は、符号化歪み(つまり、前述の誤差信号)に対して聴覚的な重み付けを行い、重み付け後の符号化歪みを歪最小化部443に出力する。
The
歪最小化部443は、符号化歪みを最小とするような適応符号帳インデクスおよび固定符号帳インデクスを決定し、適応符号帳インデクスを第Ach適応符号帳438に、固定符号帳インデクスを第Ach固定符号帳439に、それぞれ出力する。また、歪最小化部443は、それらのインデクスに対応するゲイン、具体的には、後述する適応ベクトルおよび後述する固定ベクトルの各々に対するゲイン(適応符号帳ゲインおよび固定符号帳ゲイン)を生成し、適応符号帳ゲインを乗算器433に、固定符号帳ゲインを乗算器435に、それぞれ出力する。
The
また、歪最小化部443は、モノラル駆動音源信号、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの間でゲインを調整するためのゲイン(第1調整用ゲイン、第2調整用ゲインおよび第3調整用ゲイン)を生成し、第1調整用ゲインを乗算器432に、第2調整用ゲインを乗算器434に、第3調整用ゲインを乗算器436に、それぞれ出力する。これらの調整用ゲインは、好ましくは、相互に関係性を持つように生成される。例えば、第1ch入力音声信号と第2ch入力音声信号との間のチャネル間相関が高い場合は、モノラル駆動音源信号の寄与分が、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に大きくなるように、3つの調整用ゲインが生成される。逆に、チャネル間相関が低い場合は、モノラル駆動音源信号の寄与分がゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に小さくなるように、3つの調整用ゲインが生成される。
Also, the
また、歪最小化部443は、適応符号帳インデクス、固定符号帳インデクス、適応符号帳ゲインの符号、固定符号帳ゲインの符号および3つのゲイン調整用ゲインの符号を、第Ach駆動音源符号化データとして出力する。
Also, the
第Ach適応符号帳438は、過去に生成された合成フィルタ441への駆動音源の音源ベクトルを内部バッファに記憶している。また、第Ach適応符号帳438は、記憶されている音源ベクトルから1サブフレーム分のベクトルを適応ベクトルとして生成する。適応ベクトルの生成は、歪最小化部443から入力された適応符号帳インデクスに対応する適応符号帳ラグ(ピッチラグまたはピッチ周期)に基づいて行われる。生成された適応ベクトルは、乗算器433に出力される。
The Ach
第Ach適応符号帳438の内部バッファは、スイッチ部437から出力された信号によって更新される。この更新動作の詳細については後述する。
The internal buffer of the Ach
第Ach固定符号帳439は、歪最小化部443から出力された固定符号帳インデクスに対応する音源ベクトルを、固定ベクトルとして乗算器435に出力する。
Ach fixed
乗算器433は、第Ach適応符号帳438から出力された適応ベクトルに適応符号帳ゲインを乗じ、ゲイン乗算後の適応ベクトルを乗算器434に出力する。
乗算器435は、第Ach固定符号帳439から出力された固定ベクトルに固定符号帳ゲインを乗じ、ゲイン乗算後の固定ベクトルを乗算器436に出力する。
乗算器432は、モノラル駆動音源信号に第1調整用ゲインを乗じ、ゲイン乗算後のモノラル駆動音源信号を加算器440に出力する。乗算器434は、乗算器433から出力された適応ベクトルに第2調整用ゲインを乗じ、ゲイン乗算後の適応ベクトルを加算器440に出力する。乗算器436は、乗算器435から出力された固定ベクトルに第3調整用ゲインを乗じ、ゲイン乗算後の固定ベクトルを加算器440に出力する。
加算器440は、乗算器432から出力されたモノラル駆動音源信号と、乗算器434から出力された適応ベクトルと、乗算器436から出力された固定ベクトルと、を加算し、加算後の信号をスイッチ部437および合成フィルタ441に出力する。
The
スイッチ部437は、加算器440から出力された信号または第AchLPC予測残差信号生成部447から出力された信号を、符号化チャネル選択情報に従って第Ach適応符号帳438に出力する。より具体的には、選択されたチャネルが第Aチャネルの場合は、加算器440からの信号が第Ach適応符号帳438に出力され、選択されたチャネルが第Bチャネルの場合は、第AchLPC予測残差信号生成部447からの信号が第Ac
h適応符号帳438に出力される。
The
h is output to the
第Ach復号部444は、第Ach符号化データを復号し、それによって得られた第Ach復号音声信号を第Bch推定信号生成部445に出力する。
The
第Bch推定信号生成部445は、第Ach復号音声信号およびモノラル復号音声信号を用いて、第Ach符号化時の第Bch復号音声信号として第Bch推定信号を生成する。生成された第Bch推定信号は、第BchCELP符号化部(図示せず)に出力される。
Bch estimated
第AchLPC分析部446は、図示されない第BchCELP符号化部から出力された第Ach推定信号に対してLPC分析を行い、それによって得られた第AchLPCパラメータを、第AchLPC予測残差信号生成部447に出力する。ここで、第BchCELP符号化部から出力された第Ach推定信号は、第BchCELP符号化部において第Bch入力音声信号が符号化されたとき(第Bch符号化時)に生成された第Ach復号音声信号に相当する。
The Ach
第AchLPC予測残差信号生成部447は、第AchLPC分析部446から出力された第AchLPCパラメータを用いて、第Ach推定信号に対する符号化LPC予測残差信号を生成する。生成された符号化LPC予測残差信号は、スイッチ部437に出力される。
The AchLPC prediction residual
次いで、第AchCELP符号化部430および図示されない第BchCELP符号化部での適応符号帳更新動作について説明する。図11は、符号化チャネル選択部310によって第Aチャネルが選択された場合の、適応符号帳更新動作を示すフロー図である。
Next, the adaptive codebook update operation in the AchCELP encoding unit 430 and the BchCELP encoding unit (not shown) will be described. FIG. 11 is a flowchart showing an adaptive codebook update operation when the channel A is selected by the coding
ここに例示されたフローは、第AchCELP符号化部430でのCELP符号化処理(ST310)、第AchCELP符号化部430内の適応符号帳の更新処理(ST320)および第BchCELP符号化部内の適応符号帳の更新処理(ST330)に分けられる。また、ステップST310は、2つのステップST311、ST312を含み、ステップST330は、4つのステップST331、ST332、ST333、ST334を含む。 The flow illustrated here includes CELP encoding processing (ST310) in the AchCELP encoding unit 430, adaptive codebook update processing (ST320) in the AchCELP encoding unit 430, and adaptive code in the BchCELP encoding unit. This is divided into a book update process (ST330). Step ST310 includes two steps ST311 and ST312, and step ST330 includes four steps ST331, ST332, ST333, and ST334.
まず、ステップST311では、第AchCELP符号化部430の第AchLPC分析部431によって、LPC分析および量子化が行われる。そして、第Ach適応符号帳438、第Ach固定符号帳439、乗算器432、433、434、435、436、加算器440、合成フィルタ441、減算器448、聴覚重み付け部442および歪最小化部443を主に含む閉ループ型音源探索部によって、音源探索(適応符号帳探索、固定符号帳探索およびゲイン探索)が行われる(ST312)。
First, in step ST311, LPC analysis and quantization are performed by the Ach
ステップST320では、前述の音源探索によって得られた第Ach駆動音源信号で第Ach適応符号帳438の内部バッファが更新される。
In step ST320, the internal buffer of the Ach
ステップST331では、第AchCELP符号化部430の第Bch推定信号生成部445によって、第Bch推定信号が生成される。生成された第Bch推定信号は、第AchCELP符号化部430から第BchCELP符号化部に送られる。そして、ステップST332では、第BchCELP符号化部の図示されない第BchLPC分析部(第AchLPC分析部446の同等物)によって、第Bch推定信号に対するLPC分析が行われ、第BchLPCパラメータが得られる。
In step ST331, the Bch estimation
そして、ステップST333では、第BchCELP符号化部の図示されない第BchLPC予測残差信号生成部(第AchLPC予測残差信号生成部447の同等物)によって、第BchLPCパラメータが用いられ、第Bch推定信号に対する符号化LPC予測残差信号が生成される。この符号化LPC予測残差信号は、第BchCELP符号化部の図示されないスイッチ部(スイッチ部437の同等物)を経由して、図示されない第Bch適応符号帳(第Ach適応符号帳438の同等物)に出力される。そして、ステップST334において、第Bch適応符号帳の内部バッファが、第Bch推定信号に対する符号化LPC予測残差信号で更新される。
In step ST333, the Bch LPC parameter is used by the Bch LPC prediction residual signal generation unit (equivalent to the Ach LPC prediction residual signal generation unit 447) (not shown) of the Bch CELP encoding unit, and the Bch LPC estimation signal is An encoded LPC prediction residual signal is generated. This encoded LPC prediction residual signal is sent to a Bch adaptive codebook (not shown) (equivalent to the Ach adaptive codebook 438) via a switch (not shown) of the BchCELP encoding unit (equivalent to the
続いて、適応符号帳更新動作についてより具体的に説明する。ここでは、符号化チャネル選択部310によって第Aチャネルが選択された場合を例にとり、第Ach適応符号帳438の内部バッファの更新動作例を図12を用いて説明し、第Bch適応符号帳の内部バッファの更新動作例を図13を用いて説明する。
Next, the adaptive codebook update operation will be described more specifically. Here, an example of the update operation of the internal buffer of the Ach
図12に示す動作例では、歪最小化部443によって得られた、第iフレーム内の第jサブフレームについての第Ach駆動音源信号を用いて、第Ach適応符号帳438の内部バッファが更新される(ST401)。そして、更新された第Ach適応符号帳438は、次サブフレームである第j+1サブフレームについての音源探索に用いられる(ST402)。
In the operation example shown in FIG. 12, the internal buffer of the Ach
図13に示す動作例では、第iフレームの第Ach復号音声信号および第iフレームのモノラル復号音声信号を用いて、第iフレームの第Bch推定信号が生成される(ST501)。生成された第Bch推定信号は、第AchCELP符号化部430から第BchCELP符号化部に出力される。そして、第BchCELP符号化部の第BchLPC予測残差信号生成部において、第iフレームについての第Bch符号化LPC予測残差信号(第Bch推定信号に対する符号化LPC予測残差信号)451が生成される(ST502)。第Bch符号化LPC予測残差信号451は、第BchCELP符号化部のスイッチ部を経由して第Bch適応符号帳452に出力される。第Bch適応符号帳452は、第Bch符号化LPC予測残差信号451によって更新される(ST503)。更新された第Bch適応符号帳452は、次フレームである第i+1フレームについての音源探索に用いられる(ST504)。 In the operation example shown in FIG. 13, the i-th frame Bch estimation signal is generated using i-th frame Ach decoded audio signal and i-frame monaural decoded audio signal (ST501). The generated Bch estimation signal is output from the AchCELP encoding unit 430 to the BchCELP encoding unit. Then, in the Bch LPC prediction residual signal generation unit of the Bch CELP encoding unit, a Bch encoded LPC prediction residual signal (encoded LPC prediction residual signal for the Bch estimation signal) 451 for the i-th frame is generated. (ST502). The Bch encoded LPC prediction residual signal 451 is output to the Bch adaptive codebook 452 via the switch unit of the Bch CELP encoding unit. Bch adaptive codebook 452 is updated by Bch encoded LPC prediction residual signal 451 (ST503). The updated Bch adaptive codebook 452 is used for sound source search for the (i + 1) th frame which is the next frame (ST504).
あるフレームにおいて、第Aチャネルが符号化チャネルとして選択された場合、第BchCELP符号化部では、第Bch適応符号帳452の更新動作以外の動作は要求されないため、そのフレームにおいては第Bch入力音声信号の符号化を休止することができる。 When the Ath channel is selected as the encoding channel in a certain frame, the BchCELP encoding unit does not require any operation other than the update operation of the Bch adaptive codebook 452, and therefore the Bch input speech signal in that frame. Can be paused.
このように、本実施の形態によれば、CELP符号化方式に基づいて各レイヤの音声符号化を行った場合において、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。 As described above, according to the present embodiment, when speech encoding of each layer is performed based on the CELP encoding scheme, a channel signal having a high intra-channel correlation can be encoded. The encoding efficiency by prediction can be improved.
なお、本実施の形態では、CELP符号化方式を採用した音声符号化装置において実施の形態3で説明した符号化チャネル選択部310を用いた場合を例にとって説明したが、実施の形態1および実施の形態2でそれぞれ説明した符号化チャネル選択部120および符号化チャネル選択部210を、符号化チャネル選択部310の代わりに、あるいは、符号化チャネル310とともに、使用することもできる。よって、CELP符号化方式に基づいて各レイヤの音声符号化を行った場合において、前述の各実施の形態で説明した効果を実現することができる。
In the present embodiment, the case where the coding
また、拡張レイヤの符号化チャネルの選択基準として、前述したもの以外のものを使用
することもできる。例えば、あるフレームに関して、第AchCELP符号化部430の適応符号帳探索および第BchCELP符号化部の適応符号帳探索をそれぞれ行い、それらの結果として得られる符号化歪みのうちより小さい値を有するものに対応するチャネルを、符号化チャネルとして選択しても良い。
Also, other than the above-described ones can be used as selection criteria for the enhancement layer coding channel. For example, with respect to a certain frame, the adaptive codebook search of the AchCELP encoding unit 430 and the adaptive codebook search of the BchCELP encoding unit are respectively performed, and the resulting encoding distortion has a smaller value. The corresponding channel may be selected as the encoding channel.
また、音声符号化装置400の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置400は、モノラル駆動音源信号に対して第1調整用ゲインを直接乗算する代わりに、モノラル駆動音源信号を用いて第Ach復号音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号に対して第1調整用ゲインを乗算する構成を、採用することができる。
Moreover, the component which performs the prediction between channels can also be added to the structure of the audio |
以上、本発明の各実施の形態について説明した。上記実施の形態に係る音声符号化装置および音声復号化装置は、移動体通信システムにおいて使用される無線通信移動局装置および無線通信基地局装置などの無線通信装置に搭載することができる。 The embodiments of the present invention have been described above. The speech encoding apparatus and speech decoding apparatus according to the above embodiments can be mounted on a wireless communication apparatus such as a wireless communication mobile station apparatus and a wireless communication base station apparatus used in a mobile communication system.
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。 Further, although cases have been described with the above embodiment as examples where the present invention is configured by hardware, the present invention can also be realized by software.
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。 Each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。 The name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。 Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. An FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI or a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。 Further, if integrated circuit technology comes out to replace LSI's as a result of the advancement of semiconductor technology or a derivative other technology, it is naturally also possible to carry out function block integration using this technology. Biotechnology can be applied.
本明細書は、2005年4月28日出願の特願2005−132366に基づくものである。この内容はすべてここに含めておく。 This specification is based on Japanese Patent Application No. 2005-132366 of April 28, 2005 application. All this content is included here.
本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システムなどにおける通信装置の用途に適用できる。 The present invention can be applied to the use of a communication apparatus in a mobile communication system or a packet communication system using the Internet protocol.
Claims (11)
前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、
前記第1チャネル信号および前記第2チャネル信号の一方を選択する選択手段と、
生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化手段と、
を有し、
前記選択手段は、
前記第1チャネル信号および前記第2チャネル信号に対する符号化歪み、または、前記第1チャネル信号および前記第2チャネル信号に対応するチャネル内相関度、に基づき、前記第1チャネル信号および前記第2チャネル信号の一方をフレーム毎に選択し、
前記符号化手段は、
前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化する、
音声符号化装置。In a speech encoding apparatus that encodes a stereo signal including a first channel signal and a second channel signal,
Monaural signal generating means for generating a monaural signal using the first channel signal and the second channel signal;
Selecting means for selecting one of the first channel signal and the second channel signal;
Encoding means for encoding the generated monaural signal to obtain core layer encoded data, and encoding the selected channel signal to obtain enhancement layer encoded data corresponding to the core layer encoded data;
I have a,
The selection means includes
Based on the coding distortion for the first channel signal and the second channel signal or the intra-channel correlation corresponding to the first channel signal and the second channel signal, the first channel signal and the second channel Select one of the signals for each frame,
The encoding means includes
Encoding the monaural signal and the channel signal selected for each frame for each frame;
Speech encoding device.
前記選択手段は、
算出された第1の符号化歪みが算出された第2の符号化歪みよりも小さい場合は前記第1チャネル信号を選択し、算出された第2の符号化歪みが算出された第1の符号化歪みよりも小さい場合は前記第2チャネル信号を選択する、
請求項1記載の音声符号化装置。Calculation means for calculating a first coding distortion that occurs when the first channel signal is selected and a second coding distortion that occurs when the second channel signal is selected, respectively. ,
The selection means includes
When the calculated first coding distortion is smaller than the calculated second coding distortion, the first channel signal is selected, and the calculated first coding distortion is calculated by the first code. The second channel signal is selected if the distortion is smaller than
The speech encoding apparatus according to claim 1.
前記第1チャネル信号および前記第2チャネル信号を符号化して第1符号化データおよび第2符号化データをそれぞれ得て、前記第1符号化データおよび前記第2符号化データのうち選択されたチャネル信号に対応するものを前記拡張レイヤ符号化データとして出力し、
前記符号化手段が前記モノラル信号を符号化するときに得られるモノラル復号信号と、前記符号化手段が前記第1チャネル信号を符号化するときに得られる第1チャネル復号信号と、を用いて、前記第2チャネル信号に対応する第2チャネル推定信号を生成するとともに、前記モノラル復号信号と、前記符号化手段が前記第2チャネル信号を符号化するときに得られる第2チャネル復号信号と、を用いて、前記第1チャネル信号に対応する第1チャネル推定信号を生成する推定信号生成手段と、
前記第1チャネル信号に対する前記第1チャネル復号信号の誤差および前記第2チャネル信号に対する前記第2チャネル推定信号の誤差に基づいて、前記第1の符号化歪みを算出するとともに、前記第1チャネル信号に対する前記第1チャネル推定信号の誤差および前記第2チャネル信号に対する前記第2チャネル復号信号の誤差に基づいて、前記第2の符号化歪みを算出する歪み算出手段と、
を有する請求項2記載の音声符号化装置。The encoding means includes
The first channel signal and the second channel signal are encoded to obtain first encoded data and second encoded data, respectively, and the selected channel is selected from the first encoded data and the second encoded data. A signal corresponding to the signal is output as the enhancement layer encoded data,
Using the monaural decoded signal obtained when the encoding means encodes the monaural signal and the first channel decoded signal obtained when the encoding means encodes the first channel signal, Generating a second channel estimation signal corresponding to the second channel signal, the monaural decoded signal, and a second channel decoded signal obtained when the encoding means encodes the second channel signal, Using estimated signal generating means for generating a first channel estimated signal corresponding to the first channel signal;
Calculating the first coding distortion based on an error of the first channel decoded signal with respect to the first channel signal and an error of the second channel estimation signal with respect to the second channel signal; Distortion calculating means for calculating the second coding distortion based on an error of the first channel estimation signal with respect to and an error of the second channel decoded signal with respect to the second channel signal;
The speech encoding apparatus according to claim 2, comprising:
前記第1チャネル信号に対応する第1チャネル内相関度と、前記第2チャネル信号に対応する第2チャネル内相関度と、をそれぞれ算出する算出手段を有し、
算出された第1チャネル内相関度が算出された第2チャネル内相関度よりも高い場合は前記第1チャネル信号を選択し、算出された第2チャネル内相関度が算出された第1チャネル内相関度よりも高い場合は前記第2チャネル信号を選択する、
請求項1記載の音声符号化装置。The selection means includes
Calculating means for calculating a first intra-channel correlation corresponding to the first channel signal and a second intra-channel correlation corresponding to the second channel signal;
When the calculated first intra-channel correlation is higher than the calculated second intra-channel correlation, the first channel signal is selected, and the calculated second intra-channel correlation is calculated in the first channel. When the degree of correlation is higher, the second channel signal is selected.
The speech encoding apparatus according to claim 1.
前記選択手段によって前記第1チャネル信号が選択された場合には、第1適応符号帳を用いて前記第1チャネル信号のCELP(Code Excited Linear Prediction)符号化を行い、CELP符号化結果を用いて前記拡張レイヤ符号化データを得るとともに、前記CELP符号化結果を用いて前記第1適応符号帳を更新する、
請求項1記載の音声符号化装置。The encoding means includes
When the first channel signal is selected by the selection unit, CELP (Code Excited Linear Prediction) encoding of the first channel signal is performed using a first adaptive codebook, and a CELP encoding result is used. Obtaining the enhancement layer encoded data and updating the first adaptive codebook using the CELP encoding result;
The speech encoding apparatus according to claim 1.
前記拡張レイヤ符号化データと、前記モノラル信号を符号化するときに得られるモノラル復号信号と、を用いて、前記第2チャネル信号に対応する第2チャネル推定信号を生成し、
前記第2チャネル推定信号のLPC(Linear Prediction Coding)予測残差信号を用いて、前記第2チャネル信号のCELP符号化において用いられる第2適応符号帳を更新する、
請求項5記載の音声符号化装置。The encoding means includes
Generating a second channel estimation signal corresponding to the second channel signal using the enhancement layer encoded data and a monaural decoded signal obtained when the monaural signal is encoded;
Updating a second adaptive codebook used in CELP coding of the second channel signal using an LPC (Linear Prediction Coding) prediction residual signal of the second channel estimation signal;
The speech encoding apparatus according to claim 5 .
前記第1チャネル信号を、サブフレームを有するフレームに関連づけて選択し、
前記符号化手段は、
前記モノラル信号および前記フレームに関連づけて選択された前記第1チャネル信号についてサブフレーム毎に音源探索を行いながら、前記フレームの前記拡張レイヤ符号化データを得る、
請求項6記載の音声符号化装置。The selection means includes
Selecting the first channel signal in association with a frame having subframes;
The encoding means includes
Obtaining the enhancement layer encoded data of the frame while performing sound source search for each subframe for the monaural signal and the first channel signal selected in association with the frame;
The speech encoding apparatus according to claim 6 .
前記第1適応符号帳を前記サブフレームの単位で更新するとともに、前記第2適応符号帳を前記フレームの単位で更新する、
請求項7記載の音声符号化装置。The encoding means includes
Updating the first adaptive codebook in units of the subframe and updating the second adaptive codebook in units of the frame;
The speech encoding apparatus according to claim 7 .
前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成するステップと、
前記第1チャネル信号および前記第2チャネル信号の一方を選択する選択ステップと、
生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化ステップと、
を含み、
前記選択ステップでは、
前記第1チャネル信号および前記第2チャネル信号に対する符号化歪み、または、前記第1チャネル信号および前記第2チャネル信号に対応するチャネル内相関度、に基づき、前記第1チャネル信号および前記第2チャネル信号の一方をフレーム毎に選択し、
前記符号化ステップでは、
前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化する、
音声符号化方法。In a speech encoding method for encoding a stereo signal including a first channel signal and a second channel signal,
Generating a monaural signal using the first channel signal and the second channel signal;
A selection step of selecting one of the first channel signal and the second channel signal;
With obtaining the core layer encoded data generated monaural signal is encoded, the encoding step of obtaining an enhancement layer encoded data corresponding to the core layer encoded data by encoding the selected channel signal,
Including
In the selection step,
Based on the coding distortion for the first channel signal and the second channel signal or the intra-channel correlation corresponding to the first channel signal and the second channel signal, the first channel signal and the second channel Select one of the signals for each frame,
In the encoding step,
Encoding the monaural signal and the channel signal selected for each frame for each frame;
Speech encoding method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007514799A JP4907522B2 (en) | 2005-04-28 | 2006-04-27 | Speech coding apparatus and speech coding method |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005132366 | 2005-04-28 | ||
JP2005132366 | 2005-04-28 | ||
JP2007514799A JP4907522B2 (en) | 2005-04-28 | 2006-04-27 | Speech coding apparatus and speech coding method |
PCT/JP2006/308813 WO2006118179A1 (en) | 2005-04-28 | 2006-04-27 | Audio encoding device and audio encoding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006118179A1 JPWO2006118179A1 (en) | 2008-12-18 |
JP4907522B2 true JP4907522B2 (en) | 2012-03-28 |
Family
ID=37307977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007514799A Expired - Fee Related JP4907522B2 (en) | 2005-04-28 | 2006-04-27 | Speech coding apparatus and speech coding method |
Country Status (7)
Country | Link |
---|---|
US (1) | US8428956B2 (en) |
EP (1) | EP1876586B1 (en) |
JP (1) | JP4907522B2 (en) |
CN (1) | CN101167126B (en) |
DE (1) | DE602006011600D1 (en) |
RU (1) | RU2007139784A (en) |
WO (1) | WO2006118179A1 (en) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352258B2 (en) * | 2006-12-13 | 2013-01-08 | Panasonic Corporation | Encoding device, decoding device, and methods thereof based on subbands common to past and current frames |
EP2099025A4 (en) * | 2006-12-14 | 2010-12-22 | Panasonic Corp | AUDIO CODING DEVICE AND AUDIO CODING METHOD |
JP5339919B2 (en) * | 2006-12-15 | 2013-11-13 | パナソニック株式会社 | Encoding device, decoding device and methods thereof |
WO2008072733A1 (en) * | 2006-12-15 | 2008-06-19 | Panasonic Corporation | Encoding device and encoding method |
WO2008084688A1 (en) * | 2006-12-27 | 2008-07-17 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
JP4871894B2 (en) | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | Encoding device, decoding device, encoding method, and decoding method |
BRPI0808198A8 (en) * | 2007-03-02 | 2017-09-12 | Panasonic Corp | CODING DEVICE AND CODING METHOD |
SG179433A1 (en) * | 2007-03-02 | 2012-04-27 | Panasonic Corp | Encoding device and encoding method |
JP4708446B2 (en) | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | Encoding device, decoding device and methods thereof |
WO2008126382A1 (en) | 2007-03-30 | 2008-10-23 | Panasonic Corporation | Encoding device and encoding method |
WO2008132850A1 (en) * | 2007-04-25 | 2008-11-06 | Panasonic Corporation | Stereo audio encoding device, stereo audio decoding device, and their method |
WO2009084226A1 (en) * | 2007-12-28 | 2009-07-09 | Panasonic Corporation | Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method |
JP5340261B2 (en) * | 2008-03-19 | 2013-11-13 | パナソニック株式会社 | Stereo signal encoding apparatus, stereo signal decoding apparatus, and methods thereof |
US8639519B2 (en) * | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
JP4977157B2 (en) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | Sound signal encoding method, sound signal decoding method, encoding device, decoding device, sound signal processing system, sound signal encoding program, and sound signal decoding program |
JP4977268B2 (en) * | 2011-12-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | Sound signal encoding method, sound signal decoding method, encoding device, decoding device, sound signal processing system, sound signal encoding program, and sound signal decoding program |
CA2791708A1 (en) * | 2010-03-01 | 2011-09-09 | T-Data Systems (S) Pte Ltd | A memory card |
CN104170007B (en) * | 2012-06-19 | 2017-09-26 | 深圳广晟信源技术有限公司 | To monophonic or the stereo method encoded |
US9953660B2 (en) * | 2014-08-19 | 2018-04-24 | Nuance Communications, Inc. | System and method for reducing tandeming effects in a communication system |
US10917164B2 (en) * | 2016-11-10 | 2021-02-09 | Cable Television Laboratories, Inc. | Systems and methods for ultra reliable low latency communications |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0675590A (en) * | 1992-03-02 | 1994-03-18 | American Teleph & Telegr Co <Att> | Method and apparatus for coding audio signal based on perception model |
JPH10105193A (en) * | 1996-09-26 | 1998-04-24 | Yamaha Corp | Speech encoding transmission system |
JPH11317672A (en) * | 1997-11-20 | 1999-11-16 | Samsung Electronics Co Ltd | Stereophonic audio coding and decoding method/apparatus capable of bit-rate control |
JP2004301954A (en) * | 2003-03-28 | 2004-10-28 | Matsushita Electric Ind Co Ltd | Hierarchical encoding method and hierarchical decoding method for sound signal |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434948A (en) * | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
US5274740A (en) * | 1991-01-08 | 1993-12-28 | Dolby Laboratories Licensing Corporation | Decoder for variable number of channel presentation of multidimensional sound fields |
DE19526366A1 (en) * | 1995-07-20 | 1997-01-23 | Bosch Gmbh Robert | Redundancy reduction method for coding multichannel signals and device for decoding redundancy-reduced multichannel signals |
DE19628293C1 (en) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Encoding and decoding audio signals using intensity stereo and prediction |
US6741965B1 (en) | 1997-04-10 | 2004-05-25 | Sony Corporation | Differential stereo using two coding techniques |
JPH1132399A (en) | 1997-05-13 | 1999-02-02 | Sony Corp | Coding method and system and recording medium |
US6356211B1 (en) | 1997-05-13 | 2002-03-12 | Sony Corporation | Encoding method and apparatus and recording medium |
US5924062A (en) * | 1997-07-01 | 1999-07-13 | Nokia Mobile Phones | ACLEP codec with modified autocorrelation matrix storage and search |
DE19742655C2 (en) * | 1997-09-26 | 1999-08-05 | Fraunhofer Ges Forschung | Method and device for coding a discrete-time stereo signal |
SE519552C2 (en) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Multichannel signal coding and decoding |
US6961432B1 (en) | 1999-04-29 | 2005-11-01 | Agere Systems Inc. | Multidescriptive coding technique for multistream communication of signals |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP3335605B2 (en) * | 2000-03-13 | 2002-10-21 | 日本電信電話株式会社 | Stereo signal encoding method |
JP4021124B2 (en) * | 2000-05-30 | 2007-12-12 | 株式会社リコー | Digital acoustic signal encoding apparatus, method and recording medium |
SE519985C2 (en) | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Coding and decoding of signals from multiple channels |
SE519981C2 (en) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Coding and decoding of signals from multiple channels |
SE0004187D0 (en) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
US6614365B2 (en) | 2000-12-14 | 2003-09-02 | Sony Corporation | Coding device and method, decoding device and method, and recording medium |
JP3951690B2 (en) * | 2000-12-14 | 2007-08-01 | ソニー株式会社 | Encoding apparatus and method, and recording medium |
US6934676B2 (en) * | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7062429B2 (en) * | 2001-09-07 | 2006-06-13 | Agere Systems Inc. | Distortion-based method and apparatus for buffer control in a communication system |
KR100711989B1 (en) * | 2002-03-12 | 2007-05-02 | 노키아 코포레이션 | Efficiently Improved Scalable Audio Coding |
US20030231799A1 (en) * | 2002-06-14 | 2003-12-18 | Craig Schmidt | Lossless data compression using constraint propagation |
US7349842B2 (en) * | 2003-09-29 | 2008-03-25 | Sony Corporation | Rate-distortion control scheme in audio encoding |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7392195B2 (en) * | 2004-03-25 | 2008-06-24 | Dts, Inc. | Lossless multi-channel audio codec |
JP4939933B2 (en) * | 2004-05-19 | 2012-05-30 | パナソニック株式会社 | Audio signal encoding apparatus and audio signal decoding apparatus |
KR101183857B1 (en) * | 2004-06-21 | 2012-09-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | Method and apparatus to encode and decode multi-channel audio signals |
US7930184B2 (en) * | 2004-08-04 | 2011-04-19 | Dts, Inc. | Multi-channel audio coding/decoding of random access points and transients |
ATE440361T1 (en) * | 2004-09-30 | 2009-09-15 | Panasonic Corp | SCALABLE CODING APPARATUS, SCALABLE DECODING APPARATUS AND METHOD THEREOF |
MY145282A (en) * | 2005-01-11 | 2012-01-13 | Agency Science Tech & Res | Encoder, decoder, method for encoding/decoding, computer readable media and computer program elements |
EP1859531A4 (en) * | 2005-03-11 | 2008-04-09 | Agency Science Tech & Res | predictor |
WO2006103586A1 (en) * | 2005-03-30 | 2006-10-05 | Koninklijke Philips Electronics N.V. | Audio encoding and decoding |
-
2006
- 2006-04-27 RU RU2007139784/09A patent/RU2007139784A/en not_active Application Discontinuation
- 2006-04-27 US US11/912,522 patent/US8428956B2/en active Active
- 2006-04-27 EP EP06745741A patent/EP1876586B1/en not_active Ceased
- 2006-04-27 WO PCT/JP2006/308813 patent/WO2006118179A1/en active Application Filing
- 2006-04-27 DE DE602006011600T patent/DE602006011600D1/en active Active
- 2006-04-27 JP JP2007514799A patent/JP4907522B2/en not_active Expired - Fee Related
- 2006-04-27 CN CN2006800145767A patent/CN101167126B/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0675590A (en) * | 1992-03-02 | 1994-03-18 | American Teleph & Telegr Co <Att> | Method and apparatus for coding audio signal based on perception model |
JPH10105193A (en) * | 1996-09-26 | 1998-04-24 | Yamaha Corp | Speech encoding transmission system |
JPH11317672A (en) * | 1997-11-20 | 1999-11-16 | Samsung Electronics Co Ltd | Stereophonic audio coding and decoding method/apparatus capable of bit-rate control |
JP2004301954A (en) * | 2003-03-28 | 2004-10-28 | Matsushita Electric Ind Co Ltd | Hierarchical encoding method and hierarchical decoding method for sound signal |
Also Published As
Publication number | Publication date |
---|---|
US20090083041A1 (en) | 2009-03-26 |
EP1876586B1 (en) | 2010-01-06 |
US8428956B2 (en) | 2013-04-23 |
EP1876586A4 (en) | 2008-05-28 |
CN101167126A (en) | 2008-04-23 |
RU2007139784A (en) | 2009-05-10 |
CN101167126B (en) | 2011-09-21 |
JPWO2006118179A1 (en) | 2008-12-18 |
DE602006011600D1 (en) | 2010-02-25 |
EP1876586A1 (en) | 2008-01-09 |
WO2006118179A1 (en) | 2006-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4907522B2 (en) | Speech coding apparatus and speech coding method | |
JP5046652B2 (en) | Speech coding apparatus and speech coding method | |
JP4850827B2 (en) | Speech coding apparatus and speech coding method | |
US11978460B2 (en) | Truncateable predictive coding | |
JP5046653B2 (en) | Speech coding apparatus and speech coding method | |
JP5413839B2 (en) | Encoding device and decoding device | |
JP4887288B2 (en) | Speech coding apparatus and speech coding method | |
US8271275B2 (en) | Scalable encoding device, and scalable encoding method | |
JP4963965B2 (en) | Scalable encoding apparatus, scalable decoding apparatus, and methods thereof | |
JP4555299B2 (en) | Scalable encoding apparatus and scalable encoding method | |
JP4937746B2 (en) | Speech coding apparatus and speech coding method | |
JP2006072269A (en) | Voice-coder, communication terminal device, base station apparatus, and voice coding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4907522 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |