JP4907522B2

JP4907522B2 - 音声符号化装置および音声符号化方法

Info

Publication number: JP4907522B2
Application number: JP2007514799A
Authority: JP
Inventors: 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-04-28
Filing date: 2006-04-27
Publication date: 2012-03-28
Anticipated expiration: 2026-04-27
Also published as: US20090083041A1; EP1876586B1; US8428956B2; EP1876586A4; CN101167126A; RU2007139784A; CN101167126B; JPWO2006118179A1; DE602006011600D1; EP1876586A1; WO2006118179A1

Description

本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオ音声のための音声符号化装置および音声符号化方法に関する。

移動体通信やＩＰ通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号化が必須となる。

また、ＩＰネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化方式が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。スケーラブルな構成を有する音声符号化方式における符号化処理は、階層化されており、コアレイヤに対応するものと拡張レイヤに対応するものとを含む。したがって、その符号化処理によって生成される符号化データも、コアレイヤの符号化データと拡張レイヤの符号化データとを含む。

ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号化データの一部を用いたモノラル信号の復号とを受信側において選択可能な、モノラル−ステレオ間でのスケーラブル構成（モノラル−ステレオ・スケーラブル構成）を有する音声符号化方式が望まれる。

このような音声符号化方式に基づく音声符号化方法としては、例えば、チャネル（以下、「ｃｈ」と略記することがある）間の信号の予測（第１ｃｈ信号から第２ｃｈ信号の予測、または、第２ｃｈ信号から第１ｃｈ信号の予測）を、チャネル相互間のピッチ予測により行う、すなわち、２チャネル間の相関を利用して符号化を行うものがある（非特許文献１参照）。
Ramprashad, S.A., "Stereophonic CELP coding using cross channel prediction", Proc. IEEE Workshop on Speech Coding, pp.136-138, Sep. 2000

しかしながら、上記従来の音声符号化方法では、双方のチャネル間の相関が小さい場合、十分な予測性能（予測ゲイン）が得られず符号化効率が劣化することがある。

本発明の目的は、双方のチャネル間の相関が小さい場合でも効率的にステレオ音声を符号化することができる音声符号化装置および音声符号化方法を提供することである。

本発明の音声符号化装置は、第１チャネル信号および第２チャネル信号を含むステレオ信号を符号化する音声符号化装置において、前記第１チャネル信号および前記第２チャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、前記第１チャネル信号および前記第２チャネル信号の一方を選択する選択手段と、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化手段と、を有し、前記選択手段は、前記第１チャネル信号および前記第２チャネル信号に対する符号化歪み、または、前記第１チャネル信号および前記第２チャネル信号に対応するチャネル内相関度、に基づき、前記第１チャネル信号および前記第２チャネル信号の一方をフレーム毎に選択し、前記符号化手段は、前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化する構成を採る。

本発明の音声符号化方法は、第１チャネル信号および第２チャネル信号を含むステレオ信号を符号化する音声符号化方法において、前記第１チャネル信号および前記第２チャネル信号を用いてモノラル信号を生成するステップと、前記第１チャネル信号および前記第２チャネル信号の一方を選択する選択ステップと、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化ステップと、を含み、前記選択ステップでは、前記第１チャネル信号および前記第２チャネル信号に対する符号化歪み、または、前記第１チャネル信号および前記第２チャネル信号に対応するチャネル内相関度、に基づき、前記第１チャネル信号および前記第２チャネル信号の一方をフレーム毎に選択し、前記符号化ステップでは、前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化するようにした。

本発明によれば、ステレオ信号の複数チャネル信号間の相関が小さい場合でも効率的にステレオ音声を符号化することができる。

以下、モノラル−ステレオ・スケーラブル構成を有する音声符号化に関する本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図である。図１の音声符号化装置１００は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ符号化部１０２と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ符号化部１０４と、を有する。以下、各構成要素はフレーム単位で動作することを前提として説明する。

コアレイヤ符号化部１０２は、モノラル信号生成部１１０およびモノラル信号符号化部１１２を有する。また、拡張レイヤ符号化部１０４は、符号化チャネル選択部１２０、第１ｃｈ符号化部１２２、第２ｃｈ符号化部１２４およびスイッチ部１２６を有する。

コアレイヤ符号化部１０２において、モノラル信号生成部１１０は、ステレオ入力音声信号に含まれる第１ｃｈ入力音声信号s_ch1(n)および第２ｃｈ入力音声信号s_ch2(n)（但し、n=0〜NF-1；NFはフレーム長)から、式（１）に示す関係に基づいてモノラル信号s_mono(n)を生成し、モノラル信号符号化部１１２に出力する。ここで、本実施の形態で説明するステレオ信号は、２つのチャネルの信号、すなわち第１チャネルの信号および第２チャネルの信号から成る。

モノラル信号符号化部１１２は、モノラル信号s_mono(n)をフレーム毎に符号化する。符号化には任意の符号化方式が用いられて良い。モノラル信号s_mono(n)の符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。より具体的には、コアレイヤ符号化データは、後述の拡張レイヤ符号化データおよび符号化チャネル選択情報と多重され、送信符号化データとして音声符号化装置１００から出力される。

また、モノラル信号符号化部１１２は、モノラル信号s_mono(n)を復号し、それによって得られるモノラル復号音声信号を拡張レイヤ符号化部１０４の第１ｃｈ符号化部１２２および第２ｃｈ符号化部１２４に出力する。

拡張レイヤ符号化部１０４において、符号化チャネル選択部１２０は、第１ｃｈ入力音声信号s_ch1(n)および第２ｃｈ入力音声信号s_ch2(n)を用いて、第１チャネルおよび第２チャネルのうち、拡張レイヤでの符号化の対象のチャネルとして最適なチャネルを、所定の選択基準に基づき選択する。最適なチャネルは、フレーム毎に選択される。ここで、所定の選択基準は、拡張レイヤ符号化を高効率にまたは高音質（低符号化歪み）に実現できるための基準である。符号化チャネル選択部１２０は、選択されたチャネルを示す符号化チャネル選択情報を生成する。生成された符号化チャネル選択情報は、スイッチ部１２６に出力されるとともに、前述のコアレイヤ符号化データおよび後述の拡張レイヤ符号化データと多重される。

なお、符号化チャネル選択部１２０は、第１入力音声信号s_ch1(n)および第２入力音声信号s_ch2(n)を用いる代わりに、第１ｃｈ符号化部１２２および第２ｃｈ符号化部１２４での符号化の過程で得られる任意のパラメータまたは信号もしくは符号化の結果（すなわち、後述の第１ｃｈ符号化データおよび第２ｃｈ符号化データ）を用いても良い。

第１ｃｈ符号化部１２２は、第１ｃｈ入力音声信号およびモノラル復号音声信号を用いて第１ｃｈ入力音声信号をフレーム毎に符号化し、それによって得られた第１ｃｈ符号化データをスイッチ部１２６に出力する。

また、第１ｃｈ符号化部１２２は、第１ｃｈ符号化データを復号して、第１ｃｈ復号音声信号を得る。但し、本実施の形態では、第１ｃｈ符号化部１２２で得られる第１ｃｈ復号音声信号は、図示を省略する。

第２ｃｈ符号化部１２４は、第２ｃｈ入力音声信号およびモノラル復号音声信号を用いて第２ｃｈ入力音声信号をフレーム毎に符号化し、それによって得られた第２ｃｈ符号化データをスイッチ部１２６に出力する。

また、第２ｃｈ符号化部１２４は、第２ｃｈ符号化データを復号して、第２ｃｈ復号音声信号を得る。但し、本実施の形態では、第２ｃｈ符号化部１２４で得られる第２ｃｈ復号音声信号は、図示を省略する。

スイッチ部１２６は、符号化チャネル選択情報に従って、第１ｃｈ符号化データおよび第２ｃｈ符号化データのうちいずれか一方をフレーム毎に選択的に出力する。出力される符号化データは、符号化チャネル選択部１２０によって選択されたチャネルの符号化データである。よって、選択されたチャネルが、第１チャネルから第２チャネルに、あるいは、第２チャネルから第１チャネルに切り替わったとき、スイッチ部１２６から出力される符号化データも、第１ｃｈ符号化データから第２ｃｈ符号化データに、あるいは、第２ｃｈ符号化データから第１ｃｈ符号化データに切り替わる。

ここで、前述したモノラル信号符号化部１１２、第１ｃｈ符号化部１２２、第２ｃｈ符号化部１２４およびスイッチ部１２６の組み合わせは、モノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化してコアレイヤ符号化データに対応する拡張レイヤ符号化データを得る、符号化部を構成する。

図２は、音声符号化装置１００から出力された送信符号化データを受信符号化データとして受信し復号してモノラル復号音声信号およびステレオ復号音声信号を得ることができる音声復号化装置の構成を示すブロック図である。図２の音声復号化装置１５０は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ復号部１５２と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ復号部１５４と、を有する。

コアレイヤ復号部１５２は、モノラル信号復号部１６０を有する。モノラル信号復号部１６０は、受信した受信符号化データに含まれるコアレイヤ符号化データを復号して、モノラル復号音声信号sd_mono(n)を得る。モノラル復号音声信号sd_mono(n)は、後段の音声出力部（図示せず）、第１ｃｈ復号部１７２、第２ｃｈ復号部１７４、第１ｃｈ復号信号生成部１７６および第２ｃｈ復号信号生成部１７８に出力される。

拡張レイヤ復号部１５４は、スイッチ部１７０、第１ｃｈ復号部１７２、第２ｃｈ復号部１７４、第１ｃｈ復号信号生成部１７６、第２ｃｈ復号信号生成部１７８およびスイッチ部１８０、１８２を有する。

スイッチ部１７０は、受信符号化データに含まれる符号化チャネル選択情報を参照し、受信符号化データに含まれる拡張レイヤ符号化データを、選択されたチャネルに対応する復号部に出力する。具体的には、選択されたチャネルが第１チャネルの場合は、拡張レイヤ符号化データは第１ｃｈ復号部１７２に出力され、選択されたチャネルが第２チャネルの場合は、拡張レイヤ符号化データは第２ｃｈ復号部１７４に出力される。

第１ｃｈ復号部１７２は、スイッチ部１７０から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第１ｃｈ復号音声信号sd_ch1(n)を復号し、第１ｃｈ復号音声信号sd_ch1(n)をスイッチ部１８０および第２ｃｈ復号信号生成部１７８に出力する。

第２ｃｈ復号部１７４は、スイッチ部１７０から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第２ｃｈ復号音声信号sd_ch2(n)を復号し、第２ｃｈ復号音声信号sd_ch2(n)をスイッチ部１８２および第１ｃｈ復号信号生成部１７６に出力する。

第１ｃｈ復号信号生成部１７６は、第２ｃｈ復号部１７４から第２ｃｈ復号音声信号sd_ch2(n)が入力されたとき、第２ｃｈ復号部１７４から入力された第２ｃｈ復号音声信号sd_ch2(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式（２）に示す関係に基づいて、第１ｃｈ復号音声信号sd_ch1(n)を生成する。生成された第１ｃｈ復号音声信号sd_ch1(n)はスイッチ部１８０に出力される。

第２ｃｈ復号信号生成部１７８は、第１ｃｈ復号部１７２から第１ｃｈ復号音声信号sd_ch1(n)が入力されたとき、第１ｃｈ復号部１７２から入力された第１ｃｈ復号音声信号sd_ch1(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式（３）に示す関係に基づいて、第２ｃｈ復号音声信号sd_ch2(n)を生成する。生成された第２ｃｈ復号音声信号sd_ch2(n)はスイッチ部１８２に出力される。

スイッチ部１８０は、符号化チャネル選択情報に従って、第１ｃｈ復号部１７２から入力された第１ｃｈ復号音声信号sd_ch1(n)および第１ｃｈ復号信号生成部１７６から入力された第１ｃｈ復号音声信号sd_ch1(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第１チャネルの場合は、第１ｃｈ復号部１７２から入力された第１ｃｈ復号音声信号sd_ch1(n)が選択され出力される。一方、選択されたチャネルが第２チャネルの場合は、第１ｃｈ復号信号生成部１７６から入力された第１ｃｈ復号音声信号sd_ch1(n)が選択され出力される。

スイッチ部１８２は、符号化チャネル選択情報に従って、第２ｃｈ復号部１７４から入力された第２ｃｈ復号音声信号sd_ch2(n)および第２ｃｈ復号信号生成部１７８から入力された第２ｃｈ復号音声信号sd_ch2(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第１チャネルの場合は、第２ｃｈ復号信号生成部１７８から入力された第２ｃｈ復号音声信号sd_ch2(n)が選択され出力される。一方、選択されたチャネルが第２チャネルの場合は、第２ｃｈ復号部１７４から入力された第２ｃｈ復号音声信号sd_ch2(n)が選択され出力される。

スイッチ部１８０から出力される第１ｃｈ復号音声信号sd_ch1(n)およびスイッチ部１８２から出力される第２ｃｈ復号音声信号sd_ch2(n)は、ステレオ復号音声信号として後段の音声出力部（図示せず）に出力される。

このように、本実施の形態によれば、第１ｃｈ入力音声信号s_ch1(n)および第２ｃｈ入力音声信号s_ch2(n)から生成されたモノラル信号s_mono(n)を符号化してコアレイヤ符号化データを得るとともに、第１チャネルおよび第２チャネルのうち選択されたチャネルの入力音声信号（第１ｃｈ入力音声信号s_ch1(n)または第２ｃｈ入力音声信号s_ch2(n)）を符号化して拡張レイヤ符号化データを得るため、ステレオ信号の複数チャネル間の相関が小さい場合に予測性能（予測ゲイン）が不十分になることを回避することができ、効率的にステレオ音声を符号化することができる。

（実施の形態２）
図３は、本発明の実施の形態２に係る音声符号化装置の構成を示すブロック図である。

なお、図３の音声符号化装置２００は、実施の形態１で説明した音声符号化装置１００と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち実施の形態１で説明したものと同様のものには、実施の形態１で用いたものと同一の参照符号を付し、その構成要素についての詳細な説明を省略する。

また、音声符号化装置２００から出力される送信符号化データは、実施の形態１で説明した音声復号化装置１５０と同様の基本的構成を有する音声復号化装置において復号することができる。

音声符号化装置２００は、コアレイヤ符号化部１０２および拡張レイヤ符号化部２０２を有する。拡張レイヤ符号化部２０２は、第１ｃｈ符号化部１２２、第２ｃｈ符号化部１２４、スイッチ部１２６および符号化チャネル選択部２１０を有する。

符号化チャネル選択部２１０は、第２ｃｈ復号音声生成部２１２、第１ｃｈ復号音声生成部２１４、第１歪み算出部２１６、第２歪み算出部２１８および符号化チャネル決定部２２０を有する。

第２ｃｈ復号音声生成部２１２は、モノラル信号符号化部１１２によって得られたモノラル復号音声信号および第１ｃｈ符号化部１２２によって得られた第１ｃｈ復号音声信号を用いて、前述の式（１）に示す関係に基づいて、第２ｃｈ推定信号としての第２ｃｈ復号音声信号を生成する。生成された第２ｃｈ復号音声信号は、第１歪み算出部２１６に出力される。

第１ｃｈ復号音声生成部２１４は、モノラル信号符号化部１１２によって得られたモノラル復号音声信号および第２ｃｈ符号化部１２４によって得られた第２ｃｈ復号音声信号を用いて、前述の式（１）に示す関係に基づいて、第１ｃｈ推定信号としての第１ｃｈ復号音声信号を生成する。生成された第１ｃｈ復号音声信号は、第２歪み算出部２１８に出力される。

前述した第２ｃｈ復号音声生成部２１２および第１ｃｈ復号音声生成部２１４の組み合わせは、推定信号生成部を構成する。

第１歪み算出部２１６は、第１ｃｈ符号化部１２２によって得られた第１ｃｈ復号音声信号および第２ｃｈ復号音声生成部２１２によって得られた第２ｃｈ復号音声信号を用いて、第１符号化歪みを算出する。第１符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第１チャネルを選択した場合に生じる２チャネル分の符号化歪みに相当する。算出された第１符号化歪みは、符号化チャネル決定部２２０に出力される。

第２歪み算出部２１８は、第２ｃｈ符号化部１２４によって得られた第２ｃｈ復号音声信号および第１ｃｈ復号音声生成部２１４によって得られた第１ｃｈ復号音声信号を用いて、第２符号化歪みを算出する。第２符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第２チャネルを選択した場合に生じる２チャネル分の符号化歪みに相当する。算出された第２符号化歪みは、符号化チャネル決定部２２０に出力される。

ここで、２チャネル分の符号化歪み（第１符号化歪みまたは第２符号化歪み）の算出方法としては、例えば次の２つの方法が挙げられる。１つは、各チャネルの復号音声信号（第１ｃｈ復号音声信号または第２ｃｈ復号音声信号）の、対応する入力音声信号（第１ｃ
ｈ入力音声信号または第２ｃｈ入力音声信号）に対する誤差パワーの比（信号対符号化歪み比）の２チャネル分の平均を、２チャネル分の符号化歪みとして求める方法である。もう１つは、前述した誤差パワーの２チャネル分の総和を、２チャネル分の符号化歪みとして求める方法である。

前述した第１歪み算出部２１６および第２歪み算出部２１８の組み合わせは、歪み算出部を構成する。また、この歪み算出部および前述した推定信号生成部の組み合わせは算出部を構成する。

符号化チャネル決定部２２０は、第１符号化歪みの値および第２符号化歪みの値を相互比較し、第１符号化歪みおよび第２符号化歪みのうち、より小さい値を有するものを選択する。符号化チャネル決定部２２０は、選択された符号化歪みに対応するチャネルを、拡張レイヤでの符号化の対象チャネル（符号化チャネル）として選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部２２０は、第１符号化歪みが第２符号化歪みよりも小さい場合、第１チャネルを選択し、第２符号化歪みが第１符号化歪みよりも小さい場合、第２チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部１２６に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。

このように、本実施の形態によれば、符号化チャネルの選択基準として、符号化歪みの大きさを使用するため、拡張レイヤの符号化歪みを低減することができ、効率的にステレオ音声を符号化することができる。

なお、本実施の形態では、対応する入力音声信号に対する各チャネルの復号音声信号の誤差パワーの比または総和を算出し、この算出結果を符号化歪みとして用いているが、その代わりに、第１ｃｈ符号化部１２２および第２ｃｈ符号化部１２４での符号化の過程で得られる符号化歪みを用いても良い。また、この符号化歪みは、聴覚重み付きの歪みであっても良い。

（実施の形態３）
図４は、本発明の実施の形態３に係る音声符号化装置の構成を示すブロック図である。なお、図４の音声符号化装置３００は、前述した実施の形態で説明した音声符号化装置１００、２００と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。

また、音声符号化装置３００から出力される送信符号化データは、実施の形態１で説明した音声復号化装置１５０と同様の基本的構成を有する音声復号化装置において復号することができる。

音声符号化装置３００は、コアレイヤ符号化部１０２および拡張レイヤ符号化部３０２を有する。拡張レイヤ符号化部３０２は、符号化チャネル選択部３１０、第１ｃｈ符号化部３１２、第２ｃｈ符号化部３１４およびスイッチ部１２６を有する。

符号化チャネル選択部３１０は、図５に示すように、第１ｃｈチャネル内相関度算出部３２０、第２ｃｈチャネル内相関度算出部３２２および符号化チャネル決定部３２４を有する。

第１ｃｈチャネル内相関度算出部３２０は、第１ｃｈ入力音声信号に対する正規化最大自己相関係数値を用いて、第１チャネルのチャネル内相関度cor1を算出する。

第２ｃｈチャネル内相関度算出部３２２は、第２ｃｈ入力音声信号に対する正規化最大自己相関係数値を用いて、第２チャネルのチャネル内相関度cor2を算出する。

なお、各チャネルのチャネル内相関度の算出には、各チャネルの入力音声信号に対する正規化最大自己相関係数値を用いる代わりに、各チャネルの入力音声信号に対するピッチ予測ゲイン値を用いたり、ＬＰＣ（Linear Prediction Coding）予測残差信号に対する正規化最大自己相関係数値およびピッチ予測ゲイン値を用いたりすることができる。

符号化チャネル決定部３２４は、チャネル内相関度cor1、cor2を相互比較し、これらのうち、より高い値を有するものを選択する。符号化チャネル決定部３２４は、選択されたチャネル内相関度に対応するチャネルを、拡張レイヤでの符号化チャネルとして選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部３２４は、チャネル内相関度cor1がチャネル内相関度cor2よりも高い場合、第１チャネルを選択し、チャネル内相関度cor2がチャネル内相関度cor1よりも高い場合、第２チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部１２６に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。

第１ｃｈ符号化部３１２および第２ｃｈ符号化部３１４は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第１ｃｈ符号化部３１２および第２ｃｈ符号化部３１４のうちいずれか一方を「第Ａｃｈ符号化部３３０」として示し、その内部構成について図６を用いて説明する。なお、「Ａｃｈ」の「Ａ」は１または２を表す。また、図中においておよび以下の説明において用いられる「Ｂ」も１または２を表す。但し、「Ａ」が１の場合「Ｂ」は２であり、「Ａ」が２の場合「Ｂ」は１である。

第Ａｃｈ符号化部３３０は、スイッチ部３３２、第Ａｃｈ信号チャネル内予測部３３４、減算器３３６、３３８、第Ａｃｈ予測残差信号符号化部３４０および第Ｂｃｈ推定信号生成部３４２を有する。

スイッチ部３３２は、第Ａｃｈ予測残差信号符号化部３４０によって得られた第Ａｃｈ復号音声信号、または、第Ｂｃｈ符号化部（図示せず）によって得られた第Ａｃｈ推定信号を、符号化チャネル選択情報に従って第Ａｃｈ信号チャネル内予測部３３４に出力する。具体的には、選択されたチャネルが第Ａチャネルの場合は、第Ａｃｈ復号音声信号が第Ａｃｈ信号チャネル内予測部３３４に出力され、選択されたチャネルが第Ｂチャネルの場合は、第Ａｃｈ推定信号が第Ａｃｈ信号チャネル内予測部３３４に出力される。

第Ａｃｈ信号チャネル内予測部３３４は、第Ａチャネルのチャネル内予測を行う。チャネル内予測は、チャネル内の信号の相関性を利用して過去のフレームの信号から現在のフレームの信号を予測するものである。チャネル内予測の結果として、チャネル内予測信号Sp(n)およびチャネル内予測パラメータ量子化符号が得られる。例えば１次のピッチ予測フィルタを用いる場合、チャネル内予測信号Sp(n)は、次の式（４）によって算出される。

ここで、Sin(n)はピッチ予測フィルタへの入力信号、Ｔはピッチ予測フィルタのラグ、ｇｐはピッチ予測フィルタのピッチ予測係数である。

前述した過去のフレームの信号は、第Ａｃｈ信号チャネル内予測部３３４の内部に設けられたチャネル内予測バッファ（第Ａｃｈチャネル内予測バッファ）に保持される。また、第Ａｃｈチャネル内予測バッファは、次フレームの信号の予測のために、スイッチ部３３２から入力された信号で更新される。チャネル内予測バッファの更新の詳細については後述する。

減算器３３６は、第Ａｃｈ入力音声信号からモノラル復号音声信号を減算する。減算器３３８は、減算器３３６での減算によって得られた信号から、第Ａｃｈ信号チャネル内予測部３３４でのチャネル内予測によって得られたチャネル内予測信号Sp(n)を減算する。減算器３３８での減算によって得られた信号、すなわち第Ａｃｈ予測残差信号は、第Ａｃｈ予測残差信号符号化部３４０に出力される。

第Ａｃｈ予測残差信号符号化部３４０は、第Ａｃｈ予測残差信号を任意の符号化方式で符号化する。この符号化によって、予測残差符号化データおよび第Ａｃｈ復号音声信号が得られる。予測残差符号化データは、チャネル内予測パラメータ量子化符号とともに、第Ａｃｈ符号化データとして出力される。第Ａｃｈ復号音声信号は、第Ｂｃｈ推定信号生成部３４２およびスイッチ部３３２に出力される。

第Ｂｃｈ推定信号生成部３４２は、第Ａｃｈ復号音声信号およびモノラル復号音声信号から、第Ａチャネル符号化時の第Ｂｃｈ復号音声信号として第Ｂｃｈ推定信号を生成する。生成された第Ｂｃｈ推定信号は、図示されない第Ｂｃｈ符号化部のスイッチ部（スイッチ部３３２と同様）に出力される。

次いで、チャネル内予測バッファの更新動作について説明する。ここでは、符号化チャネル選択部３１０によって第Ａチャネルが選択された場合を例にとり、第Ａチャネルのチャネル内予測バッファの更新動作例を図７を用いて説明し、第Ｂチャネルのチャネル内予測バッファの更新動作例を図８を用いて説明する。

図７に示す動作例では、第Ａｃｈ予測残差信号符号化部３４０によって得られた、第ｉフレーム（ｉは任意の自然数）の第Ａｃｈ復号音声信号を用いて、第Ａｃｈ信号チャネル内予測部３３４の内部の第Ａｃｈチャネル内予測バッファ３５１が更新される（ＳＴ１０１）。そして、更新された第Ａｃｈチャネル内予測バッファ３５１は、次フレームである第ｉ＋１フレームについてのチャネル内予測に用いられる（ＳＴ１０２）。

図８に示す動作例では、第ｉフレームの第Ａｃｈ復号音声信号および第ｉフレームのモノラル復号音声信号を用いて、第ｉフレームの第Ｂｃｈ推定信号が生成される（ＳＴ２０１）。生成された第Ｂｃｈ推定信号は、第Ａｃｈ符号化部３３０から図示されない第Ｂｃｈ符号化部に出力される。そして、第Ｂｃｈ符号化部において、第Ｂｃｈ推定信号は、スイッチ部（スイッチ部３３２と同様）を経由して第Ｂｃｈ信号チャネル内予測部（第Ａｃｈ信号チャネル内予測部３３４と同様）に出力される。第Ｂｃｈ信号チャネル内予測部の内部に設けられた第Ｂｃｈチャネル内予測バッファ３５２は、第Ｂｃｈ推定信号によって更新される（ＳＴ２０２）。そして、更新された第Ｂｃｈチャネル内予測バッファ３５２は、第ｉ＋１フレームについてのチャネル内予測に用いられる（ＳＴ２０３）。

あるフレームにおいて、第Ａチャネルが符号化チャネルとして選択された場合、第Ｂｃｈ符号化部では、第Ｂｃｈチャネル内予測バッファ３５２の更新動作以外の動作は要求されないため、そのフレームにおいては第Ｂｃｈ入力音声信号の符号化を休止することができる。

このように、本実施の形態によれば、符号化チャネルの選択基準として、チャネル内相関度の高さを使用するため、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。

なお、音声符号化装置３００の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置３００は、モノラル復号音声信号を減算器３３６に入力する代わりに、モノラル復号音声信号を用いて第Ａｃｈ音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号を減算器３３６に入力する構成を、採用することができる。

（実施の形態４）
図９は、本発明の実施の形態４に係る音声符号化装置の構成を示すブロック図である。

なお、図９の音声符号化装置４００は、前述の実施の形態で説明した音声符号化装置１００、２００、３００と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。

また、音声符号化装置４００から出力される送信符号化データは、実施の形態１で説明した音声復号化装置１５０と同様の基本的構成を有する音声復号化装置において復号することができる。

音声符号化装置４００は、コアレイヤ符号化部４０２および拡張レイヤ符号化部４０４を有する。コアレイヤ符号化部４０２は、モノラル信号生成部１１０およびモノラル信号ＣＥＬＰ（Code Excited Linear Prediction）符号化部４１０を有する。拡張レイヤ符号化部４０４は、符号化チャネル選択部３１０、第１ｃｈＣＥＬＰ符号化部４２２、第２ｃｈＣＥＬＰ符号化部４２４およびスイッチ部１２６を有する。

コアレイヤ符号化部４０２において、モノラル信号ＣＥＬＰ符号化部４１０は、モノラル信号生成部１１０によって生成されたモノラル信号に対してＣＥＬＰ符号化を行う。この符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。また、この符号化によって、モノラル駆動音源信号が得られる。さらに、モノラル信号ＣＥＬＰ符号化部４１０は、モノラル信号を復号し、それによって得られるモノラル復号音声信号を出力する。コアレイヤ符号化データは、拡張レイヤ符号化データおよび符号化チャネル選択情報と多重される。また、コアレイヤ符号化データ、モノラル駆動音源信号およびモノラル復号音声信号は、第１ｃｈＣＥＬＰ符号化部４２２および第２ｃｈＣＥＬＰ符号化部４２４に出力される。

拡張レイヤ符号化部４０４において、第１ｃｈＣＥＬＰ符号化部４２２および第２ｃｈＣＥＬＰ符号化部４２４は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第１ｃｈＣＥＬＰ符号化部４２２および第２ｃｈＣＥＬＰ符号化部４２４のうちいずれか一方を「第ＡｃｈＣＥＬＰ符号化部４３０」として示し、その内部構成について図１０を用いて説明する。なお、前述したように、「Ａｃｈ」の「Ａ」は１または２を表し、図中においておよび以下の説明において用いられる「Ｂ」も１または２を表し、「Ａ」が１の場合「Ｂ」は２であり、「Ａ」が２の場合「Ｂ」は１である。

第ＡｃｈＣＥＬＰ符号化部４３０は、第ＡｃｈＬＰＣ（Linear Prediction Coding）分析部４３１、乗算器４３２、４３３、４３４、４３５、４３６、スイッチ部４３７、第Ａｃｈ適応符号帳４３８、第Ａｃｈ固定符号帳４３９、加算器４４０、合成フィルタ４４１、聴覚重み付け部４４２、歪最小化部４４３、第Ａｃｈ復号部４４４、第Ｂｃｈ推定信号
生成部４４５、第ＡｃｈＬＰＣ分析部４４６、第ＡｃｈＬＰＣ予測残差信号生成部４４７および減算器４４８を有する。

第ＡｃｈＣＥＬＰ符号化部４３０において、第ＡｃｈＬＰＣ分析部４３１は、第Ａｃｈ入力音声信号に対するＬＰＣ分析を行い、それによって得られた第ＡｃｈＬＰＣパラメータを量子化する。第ＡｃｈＬＰＣ分析部４３１は、第ＡｃｈＬＰＣパラメータとモノラル信号に対するＬＰＣパラメータとの相関が一般に高いことを利用して、ＬＰＣパラメータの量子化に際して、コアレイヤ符号化データからモノラル信号量子化ＬＰＣパラメータを復号し、復号されたモノラル信号量子化ＬＰＣパラメータに対する第ＡｃｈＬＰＣパラメータの差分成分を量子化して、第ＡｃｈＬＰＣ量子化符号を得る。第ＡｃｈＬＰＣ量子化符号は、合成フィルタ４４１に出力される。また、第ＡｃｈＬＰＣ量子化符号は、後述の第Ａｃｈ駆動音源符号化データとともに第Ａｃｈ符号化データとして出力される。差分成分の量子化を行うことにより、拡張レイヤのＬＰＣパラメータの量子化を効率化することができる。

第ＡｃｈＣＥＬＰ符号化部４３０において、第Ａｃｈ駆動音源符号化データは、第Ａｃｈ駆動音源信号のモノラル駆動音源信号に対する残差成分を符号化することによって得られる。この符号化は、ＣＥＬＰ符号化における音源探索によって実現される。

つまり、第ＡｃｈＣＥＬＰ符号化部４３０では、適応音源信号、固定音源信号およびモノラル駆動音源信号に、それぞれに対応するゲインが乗じられ、ゲイン乗算後のこれらの音源信号が加算され、その加算によって得られた駆動音源信号に対して、歪み最小化による閉ループ型音源探索（適応符号帳探索、固定符号帳探索およびゲイン探索）が行われる。そして、適応符号帳インデクス（適応音源インデクス）、固定符号帳インデクス（固定音源インデクス）ならびに適応音源信号、固定音源信号およびモノラル駆動音源信号に対するゲイン符号が、第Ａｃｈ駆動音源符号化データとして出力される。コアレイヤの符号化、拡張レイヤの符号化および符号化チャネルの選択がフレーム毎に行われるのに対し、この音源探索は、フレームを複数の部分に分割することによって得られるサブフレーム毎に行われる。以下、この構成についてより具体的に説明する。

合成フィルタ４４１は、第ＡｃｈＬＰＣ分析部４３１から出力された第ＡｃｈＬＰＣ量子化符号を用いて、加算器４４０から出力された信号を駆動音源としてＬＰＣ合成フィルタによる合成を行う。この合成によって得られた合成信号は、減算器４４８に出力される。

減算器４４８は、第Ａｃｈ入力音声信号から合成信号を減算することにより誤差信号を算出する。誤差信号は、聴覚重み付け部４４２に出力される。誤差信号は、符号化歪みに相当する。

聴覚重み付け部４４２は、符号化歪み（つまり、前述の誤差信号）に対して聴覚的な重み付けを行い、重み付け後の符号化歪みを歪最小化部４４３に出力する。

歪最小化部４４３は、符号化歪みを最小とするような適応符号帳インデクスおよび固定符号帳インデクスを決定し、適応符号帳インデクスを第Ａｃｈ適応符号帳４３８に、固定符号帳インデクスを第Ａｃｈ固定符号帳４３９に、それぞれ出力する。また、歪最小化部４４３は、それらのインデクスに対応するゲイン、具体的には、後述する適応ベクトルおよび後述する固定ベクトルの各々に対するゲイン（適応符号帳ゲインおよび固定符号帳ゲイン）を生成し、適応符号帳ゲインを乗算器４３３に、固定符号帳ゲインを乗算器４３５に、それぞれ出力する。

また、歪最小化部４４３は、モノラル駆動音源信号、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの間でゲインを調整するためのゲイン（第１調整用ゲイン、第２調整用ゲインおよび第３調整用ゲイン）を生成し、第１調整用ゲインを乗算器４３２に、第２調整用ゲインを乗算器４３４に、第３調整用ゲインを乗算器４３６に、それぞれ出力する。これらの調整用ゲインは、好ましくは、相互に関係性を持つように生成される。例えば、第１ｃｈ入力音声信号と第２ｃｈ入力音声信号との間のチャネル間相関が高い場合は、モノラル駆動音源信号の寄与分が、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に大きくなるように、３つの調整用ゲインが生成される。逆に、チャネル間相関が低い場合は、モノラル駆動音源信号の寄与分がゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に小さくなるように、３つの調整用ゲインが生成される。

また、歪最小化部４４３は、適応符号帳インデクス、固定符号帳インデクス、適応符号帳ゲインの符号、固定符号帳ゲインの符号および３つのゲイン調整用ゲインの符号を、第Ａｃｈ駆動音源符号化データとして出力する。

第Ａｃｈ適応符号帳４３８は、過去に生成された合成フィルタ４４１への駆動音源の音源ベクトルを内部バッファに記憶している。また、第Ａｃｈ適応符号帳４３８は、記憶されている音源ベクトルから１サブフレーム分のベクトルを適応ベクトルとして生成する。適応ベクトルの生成は、歪最小化部４４３から入力された適応符号帳インデクスに対応する適応符号帳ラグ（ピッチラグまたはピッチ周期）に基づいて行われる。生成された適応ベクトルは、乗算器４３３に出力される。

第Ａｃｈ適応符号帳４３８の内部バッファは、スイッチ部４３７から出力された信号によって更新される。この更新動作の詳細については後述する。

第Ａｃｈ固定符号帳４３９は、歪最小化部４４３から出力された固定符号帳インデクスに対応する音源ベクトルを、固定ベクトルとして乗算器４３５に出力する。

乗算器４３３は、第Ａｃｈ適応符号帳４３８から出力された適応ベクトルに適応符号帳ゲインを乗じ、ゲイン乗算後の適応ベクトルを乗算器４３４に出力する。

乗算器４３５は、第Ａｃｈ固定符号帳４３９から出力された固定ベクトルに固定符号帳ゲインを乗じ、ゲイン乗算後の固定ベクトルを乗算器４３６に出力する。

乗算器４３２は、モノラル駆動音源信号に第１調整用ゲインを乗じ、ゲイン乗算後のモノラル駆動音源信号を加算器４４０に出力する。乗算器４３４は、乗算器４３３から出力された適応ベクトルに第２調整用ゲインを乗じ、ゲイン乗算後の適応ベクトルを加算器４４０に出力する。乗算器４３６は、乗算器４３５から出力された固定ベクトルに第３調整用ゲインを乗じ、ゲイン乗算後の固定ベクトルを加算器４４０に出力する。

加算器４４０は、乗算器４３２から出力されたモノラル駆動音源信号と、乗算器４３４から出力された適応ベクトルと、乗算器４３６から出力された固定ベクトルと、を加算し、加算後の信号をスイッチ部４３７および合成フィルタ４４１に出力する。

スイッチ部４３７は、加算器４４０から出力された信号または第ＡｃｈＬＰＣ予測残差信号生成部４４７から出力された信号を、符号化チャネル選択情報に従って第Ａｃｈ適応符号帳４３８に出力する。より具体的には、選択されたチャネルが第Ａチャネルの場合は、加算器４４０からの信号が第Ａｃｈ適応符号帳４３８に出力され、選択されたチャネルが第Ｂチャネルの場合は、第ＡｃｈＬＰＣ予測残差信号生成部４４７からの信号が第Ａｃ
ｈ適応符号帳４３８に出力される。

第Ａｃｈ復号部４４４は、第Ａｃｈ符号化データを復号し、それによって得られた第Ａｃｈ復号音声信号を第Ｂｃｈ推定信号生成部４４５に出力する。

第Ｂｃｈ推定信号生成部４４５は、第Ａｃｈ復号音声信号およびモノラル復号音声信号を用いて、第Ａｃｈ符号化時の第Ｂｃｈ復号音声信号として第Ｂｃｈ推定信号を生成する。生成された第Ｂｃｈ推定信号は、第ＢｃｈＣＥＬＰ符号化部（図示せず）に出力される。

第ＡｃｈＬＰＣ分析部４４６は、図示されない第ＢｃｈＣＥＬＰ符号化部から出力された第Ａｃｈ推定信号に対してＬＰＣ分析を行い、それによって得られた第ＡｃｈＬＰＣパラメータを、第ＡｃｈＬＰＣ予測残差信号生成部４４７に出力する。ここで、第ＢｃｈＣＥＬＰ符号化部から出力された第Ａｃｈ推定信号は、第ＢｃｈＣＥＬＰ符号化部において第Ｂｃｈ入力音声信号が符号化されたとき（第Ｂｃｈ符号化時）に生成された第Ａｃｈ復号音声信号に相当する。

第ＡｃｈＬＰＣ予測残差信号生成部４４７は、第ＡｃｈＬＰＣ分析部４４６から出力された第ＡｃｈＬＰＣパラメータを用いて、第Ａｃｈ推定信号に対する符号化ＬＰＣ予測残差信号を生成する。生成された符号化ＬＰＣ予測残差信号は、スイッチ部４３７に出力される。

次いで、第ＡｃｈＣＥＬＰ符号化部４３０および図示されない第ＢｃｈＣＥＬＰ符号化部での適応符号帳更新動作について説明する。図１１は、符号化チャネル選択部３１０によって第Ａチャネルが選択された場合の、適応符号帳更新動作を示すフロー図である。

ここに例示されたフローは、第ＡｃｈＣＥＬＰ符号化部４３０でのＣＥＬＰ符号化処理（ＳＴ３１０）、第ＡｃｈＣＥＬＰ符号化部４３０内の適応符号帳の更新処理（ＳＴ３２０）および第ＢｃｈＣＥＬＰ符号化部内の適応符号帳の更新処理（ＳＴ３３０）に分けられる。また、ステップＳＴ３１０は、２つのステップＳＴ３１１、ＳＴ３１２を含み、ステップＳＴ３３０は、４つのステップＳＴ３３１、ＳＴ３３２、ＳＴ３３３、ＳＴ３３４を含む。

まず、ステップＳＴ３１１では、第ＡｃｈＣＥＬＰ符号化部４３０の第ＡｃｈＬＰＣ分析部４３１によって、ＬＰＣ分析および量子化が行われる。そして、第Ａｃｈ適応符号帳４３８、第Ａｃｈ固定符号帳４３９、乗算器４３２、４３３、４３４、４３５、４３６、加算器４４０、合成フィルタ４４１、減算器４４８、聴覚重み付け部４４２および歪最小化部４４３を主に含む閉ループ型音源探索部によって、音源探索（適応符号帳探索、固定符号帳探索およびゲイン探索）が行われる（ＳＴ３１２）。

ステップＳＴ３２０では、前述の音源探索によって得られた第Ａｃｈ駆動音源信号で第Ａｃｈ適応符号帳４３８の内部バッファが更新される。

ステップＳＴ３３１では、第ＡｃｈＣＥＬＰ符号化部４３０の第Ｂｃｈ推定信号生成部４４５によって、第Ｂｃｈ推定信号が生成される。生成された第Ｂｃｈ推定信号は、第ＡｃｈＣＥＬＰ符号化部４３０から第ＢｃｈＣＥＬＰ符号化部に送られる。そして、ステップＳＴ３３２では、第ＢｃｈＣＥＬＰ符号化部の図示されない第ＢｃｈＬＰＣ分析部（第ＡｃｈＬＰＣ分析部４４６の同等物）によって、第Ｂｃｈ推定信号に対するＬＰＣ分析が行われ、第ＢｃｈＬＰＣパラメータが得られる。

そして、ステップＳＴ３３３では、第ＢｃｈＣＥＬＰ符号化部の図示されない第ＢｃｈＬＰＣ予測残差信号生成部（第ＡｃｈＬＰＣ予測残差信号生成部４４７の同等物）によって、第ＢｃｈＬＰＣパラメータが用いられ、第Ｂｃｈ推定信号に対する符号化ＬＰＣ予測残差信号が生成される。この符号化ＬＰＣ予測残差信号は、第ＢｃｈＣＥＬＰ符号化部の図示されないスイッチ部（スイッチ部４３７の同等物）を経由して、図示されない第Ｂｃｈ適応符号帳（第Ａｃｈ適応符号帳４３８の同等物）に出力される。そして、ステップＳＴ３３４において、第Ｂｃｈ適応符号帳の内部バッファが、第Ｂｃｈ推定信号に対する符号化ＬＰＣ予測残差信号で更新される。

続いて、適応符号帳更新動作についてより具体的に説明する。ここでは、符号化チャネル選択部３１０によって第Ａチャネルが選択された場合を例にとり、第Ａｃｈ適応符号帳４３８の内部バッファの更新動作例を図１２を用いて説明し、第Ｂｃｈ適応符号帳の内部バッファの更新動作例を図１３を用いて説明する。

図１２に示す動作例では、歪最小化部４４３によって得られた、第ｉフレーム内の第ｊサブフレームについての第Ａｃｈ駆動音源信号を用いて、第Ａｃｈ適応符号帳４３８の内部バッファが更新される（ＳＴ４０１）。そして、更新された第Ａｃｈ適応符号帳４３８は、次サブフレームである第ｊ＋１サブフレームについての音源探索に用いられる（ＳＴ４０２）。

図１３に示す動作例では、第ｉフレームの第Ａｃｈ復号音声信号および第ｉフレームのモノラル復号音声信号を用いて、第ｉフレームの第Ｂｃｈ推定信号が生成される（ＳＴ５０１）。生成された第Ｂｃｈ推定信号は、第ＡｃｈＣＥＬＰ符号化部４３０から第ＢｃｈＣＥＬＰ符号化部に出力される。そして、第ＢｃｈＣＥＬＰ符号化部の第ＢｃｈＬＰＣ予測残差信号生成部において、第ｉフレームについての第Ｂｃｈ符号化ＬＰＣ予測残差信号（第Ｂｃｈ推定信号に対する符号化ＬＰＣ予測残差信号）４５１が生成される（ＳＴ５０２）。第Ｂｃｈ符号化ＬＰＣ予測残差信号４５１は、第ＢｃｈＣＥＬＰ符号化部のスイッチ部を経由して第Ｂｃｈ適応符号帳４５２に出力される。第Ｂｃｈ適応符号帳４５２は、第Ｂｃｈ符号化ＬＰＣ予測残差信号４５１によって更新される（ＳＴ５０３）。更新された第Ｂｃｈ適応符号帳４５２は、次フレームである第ｉ＋１フレームについての音源探索に用いられる（ＳＴ５０４）。

あるフレームにおいて、第Ａチャネルが符号化チャネルとして選択された場合、第ＢｃｈＣＥＬＰ符号化部では、第Ｂｃｈ適応符号帳４５２の更新動作以外の動作は要求されないため、そのフレームにおいては第Ｂｃｈ入力音声信号の符号化を休止することができる。

このように、本実施の形態によれば、ＣＥＬＰ符号化方式に基づいて各レイヤの音声符号化を行った場合において、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。

なお、本実施の形態では、ＣＥＬＰ符号化方式を採用した音声符号化装置において実施の形態３で説明した符号化チャネル選択部３１０を用いた場合を例にとって説明したが、実施の形態１および実施の形態２でそれぞれ説明した符号化チャネル選択部１２０および符号化チャネル選択部２１０を、符号化チャネル選択部３１０の代わりに、あるいは、符号化チャネル３１０とともに、使用することもできる。よって、ＣＥＬＰ符号化方式に基づいて各レイヤの音声符号化を行った場合において、前述の各実施の形態で説明した効果を実現することができる。

また、拡張レイヤの符号化チャネルの選択基準として、前述したもの以外のものを使用
することもできる。例えば、あるフレームに関して、第ＡｃｈＣＥＬＰ符号化部４３０の適応符号帳探索および第ＢｃｈＣＥＬＰ符号化部の適応符号帳探索をそれぞれ行い、それらの結果として得られる符号化歪みのうちより小さい値を有するものに対応するチャネルを、符号化チャネルとして選択しても良い。

また、音声符号化装置４００の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置４００は、モノラル駆動音源信号に対して第１調整用ゲインを直接乗算する代わりに、モノラル駆動音源信号を用いて第Ａｃｈ復号音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号に対して第１調整用ゲインを乗算する構成を、採用することができる。

以上、本発明の各実施の形態について説明した。上記実施の形態に係る音声符号化装置および音声復号化装置は、移動体通信システムにおいて使用される無線通信移動局装置および無線通信基地局装置などの無線通信装置に搭載することができる。

また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

本明細書は、２００５年４月２８日出願の特願２００５−１３２３６６に基づくものである。この内容はすべてここに含めておく。

本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システムなどにおける通信装置の用途に適用できる。

本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図本発明の実施の形態１に係る音声復号化装置の構成を示すブロック図本発明の実施の形態２に係る音声符号化装置の構成を示すブロック図本発明の実施の形態３に係る音声符号化装置の構成を示すブロック図本発明の実施の形態３に係る符号化チャネル選択部の構成を示すブロック図本発明の実施の形態３に係る第Ａｃｈ符号化部の構成を示すブロック図本発明の実施の形態３に係る第Ａチャネルのチャネル内予測バッファの更新動作の一例を説明するための図本発明の実施の形態３に係る第Ｂチャネルのチャネル内予測バッファの更新動作の一例を説明するための図本発明の実施の形態４に係る音声符号化装置の構成を示すブロック図本発明の実施の形態４に係る第ＡｃｈＣＥＬＰ符号化部の構成を示すブロック図本発明の実施の形態４に係る適応符号帳更新動作の一例を示すフロー図本発明の実施の形態４に係る第Ａｃｈ適応符号帳の更新動作の一例を説明するための図本発明の実施の形態４に係る第Ｂｃｈ適応符号帳の更新動作の一例を説明するための図

Claims

第１チャネル信号および第２チャネル信号を含むステレオ信号を符号化する音声符号化装置において、
前記第１チャネル信号および前記第２チャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、
前記第１チャネル信号および前記第２チャネル信号の一方を選択する選択手段と、
生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化手段と、
を有し、
前記選択手段は、
前記第１チャネル信号および前記第２チャネル信号に対する符号化歪み、または、前記第１チャネル信号および前記第２チャネル信号に対応するチャネル内相関度、に基づき、前記第１チャネル信号および前記第２チャネル信号の一方をフレーム毎に選択し、
前記符号化手段は、
前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化する、
音声符号化装置。
前記第１チャネル信号が選択された場合に生じる第１の符号化歪みと、前記第２チャネル信号が選択された場合に生じる第２の符号化歪みと、をそれぞれ算出する算出手段をさらに有し、
前記選択手段は、
算出された第１の符号化歪みが算出された第２の符号化歪みよりも小さい場合は前記第１チャネル信号を選択し、算出された第２の符号化歪みが算出された第１の符号化歪みよりも小さい場合は前記第２チャネル信号を選択する、
請求項１記載の音声符号化装置。
前記符号化手段は、
前記第１チャネル信号および前記第２チャネル信号を符号化して第１符号化データおよび第２符号化データをそれぞれ得て、前記第１符号化データおよび前記第２符号化データのうち選択されたチャネル信号に対応するものを前記拡張レイヤ符号化データとして出力し、
前記符号化手段が前記モノラル信号を符号化するときに得られるモノラル復号信号と、前記符号化手段が前記第１チャネル信号を符号化するときに得られる第１チャネル復号信号と、を用いて、前記第２チャネル信号に対応する第２チャネル推定信号を生成するとともに、前記モノラル復号信号と、前記符号化手段が前記第２チャネル信号を符号化するときに得られる第２チャネル復号信号と、を用いて、前記第１チャネル信号に対応する第１チャネル推定信号を生成する推定信号生成手段と、
前記第１チャネル信号に対する前記第１チャネル復号信号の誤差および前記第２チャネル信号に対する前記第２チャネル推定信号の誤差に基づいて、前記第１の符号化歪みを算出するとともに、前記第１チャネル信号に対する前記第１チャネル推定信号の誤差および前記第２チャネル信号に対する前記第２チャネル復号信号の誤差に基づいて、前記第２の符号化歪みを算出する歪み算出手段と、
を有する請求項２記載の音声符号化装置。
前記選択手段は、
前記第１チャネル信号に対応する第１チャネル内相関度と、前記第２チャネル信号に対応する第２チャネル内相関度と、をそれぞれ算出する算出手段を有し、
算出された第１チャネル内相関度が算出された第２チャネル内相関度よりも高い場合は前記第１チャネル信号を選択し、算出された第２チャネル内相関度が算出された第１チャネル内相関度よりも高い場合は前記第２チャネル信号を選択する、
請求項１記載の音声符号化装置。
前記符号化手段は、
前記選択手段によって前記第１チャネル信号が選択された場合には、第１適応符号帳を用いて前記第１チャネル信号のＣＥＬＰ（Code Excited Linear Prediction）符号化を行い、ＣＥＬＰ符号化結果を用いて前記拡張レイヤ符号化データを得るとともに、前記ＣＥＬＰ符号化結果を用いて前記第１適応符号帳を更新する、
請求項１記載の音声符号化装置。
前記符号化手段は、
前記拡張レイヤ符号化データと、前記モノラル信号を符号化するときに得られるモノラル復号信号と、を用いて、前記第２チャネル信号に対応する第２チャネル推定信号を生成し、
前記第２チャネル推定信号のＬＰＣ（Linear Prediction Coding）予測残差信号を用いて、前記第２チャネル信号のＣＥＬＰ符号化において用いられる第２適応符号帳を更新する、
請求項５記載の音声符号化装置。
前記選択手段は、
前記第１チャネル信号を、サブフレームを有するフレームに関連づけて選択し、
前記符号化手段は、
前記モノラル信号および前記フレームに関連づけて選択された前記第１チャネル信号についてサブフレーム毎に音源探索を行いながら、前記フレームの前記拡張レイヤ符号化データを得る、
請求項６記載の音声符号化装置。
前記符号化手段は、
前記第１適応符号帳を前記サブフレームの単位で更新するとともに、前記第２適応符号帳を前記フレームの単位で更新する、
請求項７記載の音声符号化装置。
請求項１記載の音声符号化装置を有する移動局装置。
請求項１記載の音声符号化装置を有する基地局装置。
第１チャネル信号および第２チャネル信号を含むステレオ信号を符号化する音声符号化方法において、
前記第１チャネル信号および前記第２チャネル信号を用いてモノラル信号を生成するステップと、
前記第１チャネル信号および前記第２チャネル信号の一方を選択する選択ステップと、
生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化ステップと、
を含み、
前記選択ステップでは、
前記第１チャネル信号および前記第２チャネル信号に対する符号化歪み、または、前記第１チャネル信号および前記第２チャネル信号に対応するチャネル内相関度、に基づき、前記第１チャネル信号および前記第２チャネル信号の一方をフレーム毎に選択し、
前記符号化ステップでは、
前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレーム毎に符号化する、
音声符号化方法。