[go: up one dir, main page]

JP4645867B2 - DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM - Google Patents

DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM Download PDF

Info

Publication number
JP4645867B2
JP4645867B2 JP2000238892A JP2000238892A JP4645867B2 JP 4645867 B2 JP4645867 B2 JP 4645867B2 JP 2000238892 A JP2000238892 A JP 2000238892A JP 2000238892 A JP2000238892 A JP 2000238892A JP 4645867 B2 JP4645867 B2 JP 4645867B2
Authority
JP
Japan
Prior art keywords
audio signal
digital audio
polarity
class
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000238892A
Other languages
Japanese (ja)
Other versions
JP2002049383A (en
Inventor
哲二郎 近藤
勉 渡辺
正明 服部
裕人 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000238892A priority Critical patent/JP4645867B2/en
Publication of JP2002049383A publication Critical patent/JP2002049383A/en
Application granted granted Critical
Publication of JP4645867B2 publication Critical patent/JP4645867B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a digital signal processing method which further improves the waveform reproducibility of digital signals, a learning method and their devices, and a program storage medium. SOLUTION: The classes of digital audio signals D10 are classified based on the polarities of the signals D10. Then, the signals D10 are converted by a predicting system corresponding to the class being classified. Thus, conversion that is made further suitable to the characteristics of the signals D10 can be performed.

Description

【0001】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はPCM(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【0002】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル/アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル/アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【0003】
かかるオーバサンプリング処理では、通常、線形一次(直線)補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【0004】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもA/D変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【0005】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【0006】
本発明は以上の点を考慮してなされたもので、ディジタル信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【0007】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ゼロレベルを基準としてディジタルオーディオ信号の極性に基づいてディジタルオーディオ信号のクラスを分類し、当該分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、音素に応じてクラス分類することができるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【0008】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【0009】
図1においてオーディオ信号処理装置10は、ディジタルオーディオ信号(以下これをオーディオデータと呼ぶ)のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【0010】
すなわち、オーディオ信号処理装置10において、極性判別部11は入力端子TINから供給された図2に示す入力オーディオデータD10を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、図2に示す極性判別方法によりその極性クラスを判別する。
【0011】
すなわち図2において、分割された領域AR1(カレントデータC1)のように切り出されたすべてのタップが正である場合、この極性クラスを CLASS0とし、分割された領域AR2(カレントデータC2)のように切り出された領域内にゼロクロスが存在すると共にカレントデータ(C2)が正である場合、この極性クラスを CLASS1とし、分割された領域AR4(カレントデータC4)のように切り出された切り出された領域内にゼロクロスが存在すると共にカレントデータ(C4)が負である場合、この極性クラスを CLASS2とし、分割された領域AR3(カレントデータC3)のように切り出されたすべてのタップが負である場合、この極性クラスを CLASS3とする。
【0012】
このように、オーディオデータD10の極性に基づく極性クラスを設定することにより、オーディオデータD10がゼロレベル近傍である場合の音素と大振幅部での音素とを正負両方の領域で一段と明確に区別することができる。
【0013】
極性判別部11は入力オーディオデータD10のこのときのカレントデータに対応して求められた極性判別結果( CLASS0、 CLASS1、 CLASS2又は CLASS3)を極性クラスデータD11としてクラス分類部14に供給する。
【0014】
また、クラス分類部抽出部12は入力端子TINから供給された入力オーディオデータD10を、極性判別出部11の場合と同様の時間領域(この実施の形態の場合例えば6サンプル)に分割することによりクラス分類しようとするオーディオ波形データD12を抽出し、これをクラス分類部14に供給する。
【0015】
クラス分類部14は、クラス分類抽出部12において切り出されたオーディオ波形データD12について、当該オーディオ波形データD12を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、オーディオ波形データD12の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0016】
ADRC回路部はオーディオ波形データD12に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0017】
具体的には、オーディオ波形上の6つの8ビットのデータ(オーディオ波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つのオーディオ波形データに対して1ビットの量子化を実行すると、6つのオーディオ波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0018】
ここで、ADRC回路部は、切り出された領域内のオーディオ波形のダイナミックレンジをDR、ビット割り当をm、各オーディオ波形データのデータレベルをL、量子化コードをQとすると、次式、
【0019】
【数1】

Figure 0004645867
【0020】
に従って、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。なお、(1)式において{ }は小数点以下の切り捨て処理を意味する。かくしてオーディオ波形上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0021】
このようにしてダイナミックレンジで正規化され圧縮されたオーディオ波形データをそれぞれqn (n=1〜6)とすると、クラス分類部14に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データqn に基づいて、次式、
【0022】
【数2】
Figure 0004645867
【0023】
に示す演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出すると共に、当該算出されたオーディオ波形データD12に基づくクラスコード classに対して、上述の極性クラス CLASSを統合した後、当該統合されたクラスコード class′を表すクラスコードデータD14を予測係数メモリ15に供給する。このクラスコードclass ′は、予測係数メモリ15から予測係数を読み出す際の読み出しアドレスを示す。因みに(2)式において、nは圧縮されたオーディオ波形データqn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0024】
このようにして、クラス分類部14はクラス分類部抽出部12において入力オーディオデータD10から切り出されたオーディオ波形データD12そのもののクラスコード classと、オーディオ波形データD12の極性クラス CLASSとを統合したクラスコードデータ( class′)D14を生成し、これを予測係数メモリ15に供給する。因みに、オーディオ波形データD12そのもののクラスコード classと、オーディオ波形データD12の極性クラス CLASSとを統合する方法として、クラス分類部14は例えばオーディオ波形データD12そのもののクラスコード classに極性クラス CLASSを付加することにより、これらを統合することができる。
【0025】
予測係数メモリ15には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部14から供給されるクラスコードデータD14に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットw1 〜wn が読み出され、予測演算部16に供給される。
【0026】
予測演算部16は、予測演算部抽出部13において入力オーディオデータD10から時間軸領域で切り出された予測演算しようとするオーディオ波形データ(予測タップ)D13(x1 〜xn )と、予測係数w1 〜wn に対して、次式
【0027】
【数3】
Figure 0004645867
【0028】
に示す積和演算を行うことにより、予測結果y′を得る。この予測値y′が、音質が改善されたオーディオデータD16として予測演算部16から出力される。
【0029】
なお、オーディオ信号処理装置10の構成として図1について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図3に示すコンピュータ構成の装置を用いる。すなわち、図3において、オーディオ信号処理装置10は、バスBUSを介してCPU21、ROM(Read Only Memory)22、予測係数メモリ15を構成するRAM(Random Access Memory)15、及び各回路部がそれぞれ接続された構成を有し、CPU11はROM22に格納されている種々のプログラムを実行することにより、図1について上述した各機能ブロック(極性判別部11、クラス分類部抽出部12、予測演算部抽出部13、クラス分類部14及び予測演算部16)として動作するようになされている。
【0030】
また、オーディオ信号処理装置10にはネットワークとの間で通信を行う通信インターフェース24、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ28を有し、ネットワーク経由又は外部記憶媒体から図1について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置25のハードディスクに読み込んみ、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【0031】
ユーザは、キーボードやマウス等の入力手段26を介して種々のコマンドを入力することにより、CPU21に対して図1について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置10はデータ入出力部27を介して音質を向上させようとするオーディオデータ(入力オーディオデータ)D10を入力し、当該入力オーディオデータD10に対してクラス分類適用処理を施した後、音質が向上したオーディオデータD16をデータ入出力部27を介して外部に出力し得るようになされている。
【0032】
因みに、図4はオーディオ信号処理装置10におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置10はステップSP11から当該処理手順に入ると、続くステップSP12において入力オーディオデータD10の極性を極性判別部11において算出する。
【0033】
この算出された極性はオーティオ波形データD12のクラス分類を一段と確実にするためのもであり、オーディオ信号処理装置10は、ステップSP13においてクラス分類部14によりオーディオ波形データD12及び極性クラスD11に基づいてオーディオ波形データD12をクラス分類する。そしてオーディオ信号処理装置10は、クラス分類の結果得られたクラスコードを用いて予測係数メモリ15から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置10はクラスコードに対応した予測係数を読み出すことにより、このときのオーディオ波形の特徴に合致した予測係数を用いることができる。
【0034】
予測係数メモリ15から読み出された予測係数は、ステップSP14において予測演算部16の予測演算に用いられる。これにより、入力オーディオデータD10はその極性に応じた予測演算により、所望とするオーディオデータD16に変換される。かくして入力オーディオデータD10はその音質が改善されたオーディオデータD16に変換され、オーディオ信号処理装置10はステップSP15に移って当該処理手順を終了する。
【0035】
次に、図1について上述した予測係数メモリ15に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【0036】
図5において、学習回路30は、高音質の教師オーディオデータD30を生徒信号生成フィルタ37に受ける。生徒信号生成フィルタ37は、間引き率設定信号D39により設定された間引き率で教師オーディオデータD30を所定時間ごとに所定サンプル間引くようになされている。
【0037】
この場合、生徒信号生成フィルタ37における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置10で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置10においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ37ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置10において入力オーディオデータD10の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ37ではデータサンプルを欠落させる間引き処理を行うようになされている。
【0038】
かくして、生徒信号生成フィルタ37は教師オーディオデータ30から所定の間引き処理により生徒オーディオデータD37を生成し、これを極性判別部31、クラス分類部抽出部32及び予測演算部抽出部33にそれぞれ供給する。
【0039】
極性判別部31は生徒信号生成フィルタ37から供給された生徒オーディオデータD37を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、その極性クラスを図2について上述したように分類する。
【0040】
そして極性判別部31は生徒オーディオデータD37のこのとき分割された時間領域の極性判別結果を生徒オーディオデータD37の極性クラスデータD31としてクラス分類部34に供給する。
【0041】
また、クラス分類部抽出部32は生徒信号生成フィルタ37から供給された生徒オーディオデータD37を、極性判別部31の場合と同様の時間領域(この実施の形態の場合例えば6サンプル)に分割することによりクラス分類しようとするオーディオ波形データD32を抽出し、これをクラス分類部34に供給する。
【0042】
クラス分類部34は、クラス分類抽出部32において切り出されたオーディオ波形データD32について、当該オーディオ波形データD32を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、オーディオ波形データD32の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0043】
ADRC回路部はオーディオ波形データD32に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0044】
具体的には、オーディオ波形上の6つの8ビットのデータ(オーディオ波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つのオーディオ波形データに対して1ビットの量子化を実行すると、6つのオーディオ波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0045】
ここで、ADRC回路部は、切り出された領域内のオーディオ波形のダイナミックレンジをDR、ビット割り当をm、各オーディオ波形データのデータレベルをL、量子化コードをQとして、上述の(1)式と同様の演算により、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。かくしてオーディオ波形上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0046】
このようにしてオーディオ波形のダイナミックレンジで正規化し圧縮されたオーディオ波形データをそれぞれqn (n=1〜6)とすると、クラス分類部34に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データqn に基づいて、上述の(2)式と同様の演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass と極性判別部31により算出された極性クラス( CLASS0、 CLASS1、 CLASS2又は CLASS3)とを統合した後、当該統合されてなるクラスコード class′を表すクラスコードデータD34を予測係数算出部36に供給する。因みに(2)式において、nは圧縮されたオーディオ波形データqn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0047】
このようにして、クラス分類部34はクラスコードデータD34を生成し、これを予測係数算出部36に供給する。また、予測係数算出部36には、クラスコードデータD34に対応した時間軸領域のオーディオ波形データD33(x1 、x2 、……、xn )が予測演算部抽出部33において切り出されて供給される。
【0048】
予測係数算出部36は、クラス分類部34から供給されたクラスコードclass ′と、各クラスコードclass 毎に切り出されたオーディオ波形データD33と、入力端TINから供給された高音質の教師オーディオデータD30とを用いて、正規方程式を立てる。
【0049】
すなわち、生徒オーディオデータD37のnサンプルのレベルをそれぞれx1 、x2 、……、xn として、それぞれにpビットのADRCを行った結果の量子化データをq1 、……、qn とする。このとき、この領域のクラスコードclass ′を上述の(2)式のように定義する。そして、上述のように生徒オーディオデータD37のレベルをそれぞれ、x1 、x2 、……、xn とし、高音質の教師オーディオデータD30のレベルをyとしたとき、クラスコード毎に、予測係数w1 、w2 、……、wn によるnタップの線形推定式を設定する。これを次式、
【0050】
【数4】
Figure 0004645867
【0051】
とする。学習前は、wn が未定係数である。
【0052】
学習回路30では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がMの場合、上述の(4)式に従って、次式、
【0053】
【数5】
Figure 0004645867
【0054】
が設定される。但しk=1、2、……Mである。
【0055】
M>nの場合、予測係数w1 、……wn は一意的に決まらないので、誤差ベクトルeの要素を次式、
【0056】
【数6】
Figure 0004645867
【0057】
によって定義し(但し、k=1、2、……、M)、次式、
【0058】
【数7】
Figure 0004645867
【0059】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【0060】
ここで、(7)式によるwn の偏微分係数を求める。この場合、次式、
【0061】
【数8】
Figure 0004645867
【0062】
を「0」にするように、各wn (n=1〜6)を求めれば良い。
【0063】
そして、次式、
【0064】
【数9】
Figure 0004645867
【0065】
【数10】
Figure 0004645867
【0066】
のように、Xij、Yi を定義すると、(8)式は行列を用いて次式、
【0067】
【数11】
Figure 0004645867
【0068】
として表される。
【0069】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではn=6である。
【0070】
全ての学習用データ(教師オーディオデータD30、クラスコードclass ′、オーディオ波形データD33)の入力が完了した後、予測係数算出部36は各クラスコードclass ′に上述の(11)式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Wn について解き、各クラスコード毎に、予測係数を算出する。予測係数算出部36は、算出された各予測係数(D36)を予測係数メモリ15に書き込む。
【0071】
このような学習を行った結果、予測係数メモリ15には、量子化データq1 、……、q6 で規定されるパターン毎に、高音質のオーディオデータyを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ15は、図1について上述したオーディオ信号処理装置10において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【0072】
このように、学習回路30は、オーディオ信号処理装置10において補間処理を行う程度を考慮して、生徒信号生成フィルタ37で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置10における補間処理のための予測係数を生成することができる。
【0073】
以上の構成において、オーディオ信号処理装置10は、クラス分類部14のADRC処理においてオーディオ波形をそのダイナミックレンジで正規化することでオーディオ波形そのもののクラスコード classを得る。この場合、オーディオ波形のゼロレベル近傍及び大振幅部では音素が異なっている場合が多く、単にダイナミックレンジで正規化した結果でクラス分類を行うと、元々異なる音素であっても同一クラスと見なされてしまうことがある。従って、クラス分類部14では、オーディオ波形そのもののクラスコード classに、オーディオ波形の極性クラス CLASSを統合してクラスコード class′を算出し、これをクラス分類結果として予測演算に用いることにより、オーディオ波形そのものから得られたクラスコード classが同一クラスとなった場合でも、オーディオ波形の極性クラスに応じて確実にクラス分類することができる。
【0074】
例えば、極性クラスが CLASS0又は CLASS3である場合、このことは切り出されたオーディオ波形データの値が全て正又は負であること、すなわち比較的大振幅の波形部分であることを表しており、また、極性クラスが CLASS1又は CLASS2である場合、このことは切り出されたオーディオ波形がゼロクロス部と正又は負とを含む波形であること、すなわち比較的ゼロレベル近傍の波形部分であることを表しており、クラス分類部14はかかる極性クラスをオーディオ波形データそのもののクラスコード classに統合してクラス分類を行うことにより、異なる音素を異なるクラスコードとして分類することができる。
【0075】
以上の構成によれば、入力オーディオデータD10の極性クラスを用いて入力オーディオデータD10をクラス分類し、当該クラス分類された結果に基づく予測係数を用いて予測演算するようにしたことにより、入力オーディオデータD10を一段と高音質のオーディオデータD16に変換することができる。
【0076】
なお上述の実施の形態においては、オーディオ信号処理装置10及び学習装置30において、クラス分類部抽出部12、32及び予測演算部抽出部13、33により入力オーディオデータD10、D37を常に一定の範囲毎に切り出す場合について述べたが、本発明はこれに限らず、例えば図1及び図5との対応部分に同一符号を付して示す図6及び図7に示すように、極性判別部11、31において算出された極性クラスに基づいて抽出制御信号CONT11、CONT31を可変クラス分類部抽出部12′、可変予測演算部抽出部13′及び可変クラス分類部抽出部32′、可変予測演算部抽出部33′に供給することにより入力オーディオデータD10、D37の切り出し範囲(タップ)を制御するようにしても良い。
【0077】
この場合、極性判別部11、31は、極性クラス CLASS0、 CLASS1、 CLASS2及び CLASS3の頻度に基づいて切り出し範囲(タップの切り出し長)を制御することにより、タップの切り出し長を長くし過ぎることによる正極性のみ( CLASS0)又は負極性のみ( CLASS3)への分類頻度の低下を防止することができる。
【0078】
この場合、オーディオデータの変換処理手順は図4との対応部分に同一符号を付して示す図8に示すように、オーディオ波形の極性を判別するステップSP12の次に、当該判別された極性に基づいて可変クラス分類部抽出部12′、32′及び可変予測演算部抽出部13′、33′におけるタップ抽出領域を制御する処理ステップSP21を挿入するようにすれば良い。
【0079】
また上述の実施の形態においては、極性クラスとして4つの極性クラス CLASS0、 CLASS1、 CLASS2及び CLASS3を設ける場合について述べたが、本発明はこれに限らず、全て正の領域、全て負の領域、ゼロクロスを含む領域の3つの極性クラスに分類するようにしても良い。
【0080】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法等の種々の予測方式を適用することができる。
【0081】
また上述の実施の形態においては、クラス分類部14においてADRCにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化(DPCM:Differrential Pulse Code Modulation) 又はベクトル量子化(VQ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【0082】
また上述の実施の形態においては、学習回路30の生徒信号生成フィルタ37において教師オーディオデータD30から所定サンプル数を間引く場合について述べたが、本発明はこれに限らず、例えばビット数を削減する等、他の種々の方法を適用することができる。
【0083】
【発明の効果】
かかる課題を解決するため本発明においては、ゼロレベルを基準としてディジタルオーディオ信号の極性に基づいてディジタルオーディオ信号のクラスを分類し、当該分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、音素に応じてクラス分類することができるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図1】本発明によるディジタル信号処理装置の構成を示すブロック図である。
【図2】極性判別の説明に供する信号波形図である。
【図3】オーディオ信号処理装置の構成を示すブロック図である。
【図4】オーディオ信号変換処理手順を示すフローチャートである。
【図5】本発明による学習装置の構成を示すブロック図である。
【図6】ディジタル信号処理装置の他の実施の形態を示すブロック図である。
【図7】学習装置の他の実施の形態を示すブロック図である。
【図8】他の実施の形態によるオーディオ信号変換処理手順を示すフローチャートである。
【符号の説明】
10……オーディオ信号処理装置、11、31……極性判別部、14、34……クラス分類部、15……予測係数メモリ、16……予測演算部、36……予測係数算出部、37……生徒信号生成フィルタ。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a digital signal processing method, a learning method, an apparatus for the same, and a program storage medium, and relates to a digital signal processing method for performing data interpolation processing on a digital signal in a rate converter or a PCM (Pulse Code Modulation) decoding device, and learning The present invention is suitable for application to methods and their apparatuses and program storage media.
[0002]
[Prior art]
Conventionally, before a digital audio signal is input to a digital / analog converter, an oversampling process for converting the sampling frequency to several times the original value is performed. This allows the digital audio signal output from the digital / analog converter to maintain the phase characteristics of the analog anti-alias filter at a high audible frequency range and eliminates the effects of digital image noise associated with sampling. It is made to be done.
[0003]
In such oversampling processing, a digital filter of a linear primary (linear) interpolation method is usually used. Such a digital filter obtains an average value of a plurality of existing data and generates linear interpolation data when the sampling rate changes or data is lost.
[0004]
[Problems to be solved by the invention]
However, the digital audio signal after the oversampling process has a data amount that is several times denser in the time axis direction by linear linear interpolation, but the frequency band of the digital audio signal after the oversampling process is the same as that before the conversion. It has not changed much, and the sound quality itself has not improved. Furthermore, since the interpolated data is not necessarily generated based on the waveform of the analog audio signal before A / D conversion, the waveform reproducibility is hardly improved.
[0005]
In addition, when dubbing digital audio signals with different sampling frequencies, the frequency is converted using a sampling rate converter. Even in such a case, only linear data interpolation can be performed using a linear primary digital filter. Therefore, it was difficult to improve sound quality and waveform reproducibility. Further, the same applies when a data sample of the digital audio signal is lost.
[0006]
The present invention has been made in consideration of the above points, and an object of the present invention is to propose a digital signal processing method, a learning method, an apparatus thereof, and a program storage medium that can further improve the digital signal waveform reproducibility.
[0007]
[Means for Solving the Problems]
In order to solve such a problem, in the present invention, a class of a digital audio signal is classified based on the polarity of the digital audio signal with reference to a zero level, and the digital audio signal is converted by a prediction method corresponding to the classified class. By doing so, it is possible to classify according to phonemes, so that conversion adapted to the characteristics of the digital audio signal can be performed.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
[0009]
In FIG. 1, an audio signal processing apparatus 10 generates audio data close to a true value by class classification application processing when raising the sampling rate of a digital audio signal (hereinafter referred to as audio data) or interpolating audio data. It is made to do. Incidentally, the digital audio signal means an audio signal representing a voice uttered by a person or an animal, a musical sound signal representing a musical sound emitted by a musical instrument, and a signal representing another sound.
[0010]
That is, in the audio signal processing apparatus 10, the polarity determination unit 11 when the input audio data D10 shown in FIG. 2, which is supplied from the input terminal T IN region (this embodiment the predetermined time intervals, eg, every 6 sample 2), the polarity class of the waveform of each divided time region is discriminated by the polarity discriminating method shown in FIG.
[0011]
That is, in FIG. 2, when all the taps cut out as in the divided area AR1 (current data C1) are positive, this polarity class is set to CLASS0, as in the divided area AR2 (current data C2). If a zero cross exists in the cut out area and the current data (C2) is positive, this polarity class is set to CLASS1, and the cut out area in the cut out area AR4 (current data C4) If the zero cross is present and the current data (C4) is negative, this polarity class is CLASS2, and if all the taps extracted as in the divided area AR3 (current data C3) are negative, this The polarity class is CLASS3.
[0012]
In this way, by setting the polarity class based on the polarity of the audio data D10, the phoneme when the audio data D10 is near the zero level and the phoneme in the large amplitude portion are more clearly distinguished in both positive and negative regions. be able to.
[0013]
The polarity discriminating unit 11 supplies the polarity discriminating result (CLASS0, CLASS1, CLASS2 or CLASS3) obtained corresponding to the current data of the input audio data D10 at this time to the class classification unit 14 as the polarity class data D11.
[0014]
Further, the class classification unit extraction unit 12 divides the input audio data D10 supplied from the input terminal T IN into the same time domain as the polarity discrimination output unit 11 (for example, 6 samples in this embodiment). Thus, the audio waveform data D12 to be classified is extracted and supplied to the class classification unit 14.
[0015]
The class classification unit 14 includes an ADRC (Adaptive Dynamic Range Coding) circuit unit that compresses the audio waveform data D12 and generates a compressed data pattern for the audio waveform data D12 extracted by the class classification extraction unit 12, and audio waveform data. A class code generation circuit unit for generating a class code to which D12 belongs.
[0016]
The ADRC circuit unit performs pattern compression data on the audio waveform data D12 by performing an operation such as compression from 8 bits to 2 bits, for example. This ADRC circuit unit performs adaptive quantization. Here, since a local pattern of a signal level can be efficiently expressed with a short word length, it is used for generating a code for classifying a signal pattern. Used for.
[0017]
Specifically, when attempting to classify six classes 8 bits of data (audio waveform data) on the audio waveform, it must be classified into enormous number of classes of 2 48, many burden on the circuit Become. Therefore, the class classification unit 14 of this embodiment performs class classification based on the pattern compression data generated by the ADRC circuit unit provided therein. For example, if 1-bit quantization is performed on 6 audio waveform data, the 6 audio waveform data can be represented by 6 bits and can be classified into 2 6 = 64 classes.
[0018]
Here, when the dynamic range of the audio waveform in the clipped region is DR, the bit allocation is m, the data level of each audio waveform data is L, and the quantization code is Q, the ADRC circuit unit has the following formula:
[0019]
[Expression 1]
Figure 0004645867
[0020]
Accordingly, the quantization is performed by equally dividing the maximum value MAX and the minimum value MIN in the region with the designated bit length. In the expression (1), {} means a rounding process after the decimal point. Thus, if the six waveform data on the audio waveform are each composed of, for example, 8 bits (m = 8), these are each compressed to 2 bits in the ADRC circuit unit.
[0021]
Assuming that the audio waveform data normalized and compressed in the dynamic range in this way is q n (n = 1 to 6), the class code generation circuit unit provided in the class classification unit 14 generates a compressed audio waveform. Based on the data q n ,
[0022]
[Expression 2]
Figure 0004645867
[0023]
Is executed to calculate the class code class indicating the class to which the block (q 1 to q 6 ) belongs, and to the class code class based on the calculated audio waveform data D 12, After the polarity class CLASS is integrated, class code data D14 representing the integrated class code class ′ is supplied to the prediction coefficient memory 15. The class code class ′ indicates a read address when a prediction coefficient is read from the prediction coefficient memory 15. Incidentally, in equation (2), n represents the number of compressed audio waveform data q n , n = 6 in this embodiment, and P represents bit allocation, and P = in this embodiment. 2.
[0024]
In this way, the class classification unit 14 integrates the class code class of the audio waveform data D12 itself extracted from the input audio data D10 by the class classification unit extraction unit 12 and the polarity class CLASS of the audio waveform data D12. Data (class ′) D 14 is generated and supplied to the prediction coefficient memory 15. Incidentally, as a method of integrating the class code class of the audio waveform data D12 itself and the polarity class CLASS of the audio waveform data D12, the class classification unit 14 adds the polarity class CLASS to the class code class of the audio waveform data D12 itself, for example. It is possible to integrate them.
[0025]
In the prediction coefficient memory 15, a set of prediction coefficients corresponding to each class code is stored at an address corresponding to the class code, and based on the class code data D 14 supplied from the class classification unit 14, the class code The set of prediction coefficients w 1 to w n stored at the address corresponding to is read and supplied to the prediction calculation unit 16.
[0026]
The prediction calculation unit 16 includes audio waveform data (prediction tap) D13 (x 1 to x n ) to be predicted and extracted from the input audio data D10 in the time axis region by the prediction calculation unit extraction unit 13, and a prediction coefficient w. against 1 ~w n, the following equation [0027]
[Equation 3]
Figure 0004645867
[0028]
The prediction result y ′ is obtained by performing the product-sum operation shown in FIG. The predicted value y ′ is output from the prediction calculation unit 16 as audio data D16 with improved sound quality.
[0029]
Although the functional block described above with reference to FIG. 1 is shown as the configuration of the audio signal processing apparatus 10, the computer configuration apparatus shown in FIG. 3 is used in this embodiment as a specific configuration of the functional block. 3, the audio signal processing apparatus 10 is connected to a CPU 21, a ROM (Read Only Memory) 22, a RAM (Random Access Memory) 15 constituting a prediction coefficient memory 15, and each circuit unit via a bus BUS. The CPU 11 executes the various programs stored in the ROM 22 so that each of the functional blocks (polarity determination unit 11, class classification unit extraction unit 12, prediction calculation unit extraction unit) described above with reference to FIG. 13, class classification unit 14 and prediction calculation unit 16).
[0030]
The audio signal processing apparatus 10 also has a communication interface 24 that communicates with a network, and a removable drive 28 that reads information from an external storage medium such as a floppy disk or a magneto-optical disk, via a network or from an external storage medium. Each program for performing the class classification application process described above with reference to FIG. 1 may be read into the hard disk of the hard disk device 25, and the class classification adaptive process may be performed according to the read program.
[0031]
The user inputs various commands through the input means 26 such as a keyboard and a mouse, thereby causing the CPU 21 to execute the class classification process described above with reference to FIG. In this case, the audio signal processing apparatus 10 inputs audio data (input audio data) D10 for improving sound quality via the data input / output unit 27, and performs class classification application processing on the input audio data D10. After that, the audio data D16 with improved sound quality can be output to the outside via the data input / output unit 27.
[0032]
4 shows a processing procedure of the class classification adaptive processing in the audio signal processing device 10. When the audio signal processing device 10 enters the processing procedure from step SP11, the polarity of the input audio data D10 is discriminated in step SP12. Calculated in part 11.
[0033]
This calculated polarity is for further ensuring the classification of the audio waveform data D12, and the audio signal processing apparatus 10 uses the class classification unit 14 based on the audio waveform data D12 and the polarity class D11 in step SP13. The audio waveform data D12 is classified. Then, the audio signal processing device 10 reads the prediction coefficient from the prediction coefficient memory 15 using the class code obtained as a result of the classification. This prediction coefficient is stored in advance corresponding to each class by learning, and the audio signal processing apparatus 10 reads the prediction coefficient corresponding to the class code, and uses the prediction coefficient that matches the characteristics of the audio waveform at this time. be able to.
[0034]
The prediction coefficient read from the prediction coefficient memory 15 is used for the prediction calculation of the prediction calculation unit 16 in step SP14. As a result, the input audio data D10 is converted into desired audio data D16 by a prediction calculation according to the polarity. Thus, the input audio data D10 is converted into the audio data D16 with improved sound quality, and the audio signal processing apparatus 10 proceeds to step SP15 and ends the processing procedure.
[0035]
Next, a learning circuit for obtaining in advance a set of prediction coefficients for each class stored in the prediction coefficient memory 15 described above with reference to FIG. 1 will be described.
[0036]
In FIG. 5, the learning circuit 30 receives high-quality teacher audio data D <b> 30 by the student signal generation filter 37. The student signal generation filter 37 is configured to thin out the teacher audio data D30 by a predetermined number of samples every predetermined time at a thinning rate set by the thinning rate setting signal D39.
[0037]
In this case, the generated prediction coefficient differs depending on the decimation rate in the student signal generation filter 37, and the audio data reproduced by the audio signal processing apparatus 10 described above also differs accordingly. For example, when the audio signal processing apparatus 10 described above attempts to improve the sound quality of audio data by increasing the sampling frequency, the student signal generation filter 37 performs a thinning process to reduce the sampling frequency. On the other hand, when the audio signal processing apparatus 10 supplements the missing data sample of the input audio data D10 to improve the sound quality, the student signal generation filter 37 accordingly selects the data sample. The thinning-out process to be deleted is performed.
[0038]
Thus, the student signal generation filter 37 generates student audio data D37 from the teacher audio data 30 by a predetermined thinning process, and supplies the student audio data D37 to the polarity determination unit 31, the class classification unit extraction unit 32, and the prediction calculation unit extraction unit 33, respectively. .
[0039]
The polarity discriminating unit 31 divides the student audio data D37 supplied from the student signal generation filter 37 into regions for every predetermined time (in this embodiment, for example, every 6 samples), and then the divided times For the waveform of the region, its polarity class is classified as described above for FIG.
[0040]
Then, the polarity discriminating unit 31 supplies the class discrimination unit 34 with the polarity discriminating result of the time domain divided at this time of the student audio data D37 as the polarity class data D31 of the student audio data D37.
[0041]
Further, the class classification unit extraction unit 32 divides the student audio data D37 supplied from the student signal generation filter 37 into the same time region as that of the polarity determination unit 31 (for example, 6 samples in this embodiment). Thus, the audio waveform data D32 to be classified is extracted and supplied to the class classification unit 34.
[0042]
The class classification unit 34 includes an ADRC (Adaptive Dynamic Range Coding) circuit unit that compresses the audio waveform data D32 and generates a compressed data pattern for the audio waveform data D32 extracted by the class classification extraction unit 32, and audio waveform data. A class code generation circuit unit for generating a class code to which D32 belongs.
[0043]
The ADRC circuit unit performs pattern compression data on the audio waveform data D32 by performing an operation such as compression from 8 bits to 2 bits, for example. This ADRC circuit unit performs adaptive quantization. Here, since a local pattern of a signal level can be efficiently expressed with a short word length, it is used for generating a code for classifying a signal pattern. Used for.
[0044]
Specifically, when attempting to classify six classes 8 bits of data (audio waveform data) on the audio waveform, it must be classified into enormous number of classes of 2 48, many burden on the circuit Become. Therefore, the class classification unit 14 of this embodiment performs class classification based on the pattern compression data generated by the ADRC circuit unit provided therein. For example, if 1-bit quantization is performed on 6 audio waveform data, the 6 audio waveform data can be represented by 6 bits and can be classified into 2 6 = 64 classes.
[0045]
Here, the ADRC circuit unit assumes that the dynamic range of the audio waveform in the extracted region is DR, bit allocation is m, the data level of each audio waveform data is L, and the quantization code is Q. By performing the same operation as in the equation, quantization is performed by equally dividing the maximum value MAX and the minimum value MIN in the area with a designated bit length. Thus, if the six waveform data on the audio waveform are each composed of, for example, 8 bits (m = 8), these are each compressed to 2 bits in the ADRC circuit unit.
[0046]
Assuming that the audio waveform data normalized and compressed in the dynamic range of the audio waveform in this way is q n (n = 1 to 6), respectively, the class code generation circuit unit provided in the class classification unit 34 is compressed. Based on the audio waveform data q n , the class code class indicating the class to which the block (q 1 to q 6 ) belongs is calculated by performing the same operation as the above equation (2). After the class code class and the polarity class (CLASS0, CLASS1, CLASS2, or CLASS3) calculated by the polarity discriminating unit 31 are integrated, class code data D34 representing the integrated class code class ′ is used as the prediction coefficient calculating unit 36. To supply. Incidentally, in equation (2), n represents the number of compressed audio waveform data q n , n = 6 in this embodiment, and P represents bit allocation, and P = in this embodiment. 2.
[0047]
In this way, the class classification unit 34 generates the class code data D34 and supplies it to the prediction coefficient calculation unit 36. Also, the time-domain audio waveform data D33 (x 1 , x 2 ,..., X n ) corresponding to the class code data D34 is cut out and supplied to the prediction coefficient calculation unit 36 by the prediction calculation unit extraction unit 33. Is done.
[0048]
The prediction coefficient calculation unit 36 includes the class code class ′ supplied from the class classification unit 34, the audio waveform data D33 cut out for each class code class, and high-quality teacher audio data supplied from the input terminal T IN. A normal equation is established using D30.
[0049]
That, x 1 the level of n samples of the student audio data D37, respectively, x 2, ..., as x n, q 1 the quantized data of the result of the ADRC of p bits each, ..., and q n To do. At this time, the class code class' of this area is defined as in the above-described equation (2). Then, as described above, when the level of the student audio data D37 is x 1 , x 2 ,..., X n and the level of the high-quality teacher audio data D30 is y, the prediction coefficient for each class code. An n-tap linear estimation formula using w 1 , w 2 ,..., w n is set. This is expressed as
[0050]
[Expression 4]
Figure 0004645867
[0051]
And Before learning, w n is an undetermined coefficient.
[0052]
The learning circuit 30 learns a plurality of audio data for each class code. When the number of data samples is M, according to the above equation (4), the following equation:
[0053]
[Equation 5]
Figure 0004645867
[0054]
Is set. However, k = 1, 2,...
[0055]
In the case of M> n, the prediction coefficients w 1 ,... W n are not uniquely determined.
[0056]
[Formula 6]
Figure 0004645867
[0057]
(Where k = 1, 2,..., M),
[0058]
[Expression 7]
Figure 0004645867
[0059]
Find the prediction coefficient that minimizes. This is a so-called least square method.
[0060]
Here, obtaining a partial differential coefficient of w n by equation (7). In this case,
[0061]
[Equation 8]
Figure 0004645867
[0062]
Each w n (n = 1 to 6) may be obtained so as to set “0” to “0”.
[0063]
And the following formula:
[0064]
[Equation 9]
Figure 0004645867
[0065]
[Expression 10]
Figure 0004645867
[0066]
If X ij and Y i are defined as follows, Equation (8) is expressed as follows using a matrix:
[0067]
## EQU11 ##
Figure 0004645867
[0068]
Represented as:
[0069]
This equation is generally called a normal equation. Here, n = 6.
[0070]
After the input of all the learning data (teacher audio data D30, class code class ', audio waveform data D33) is completed, the prediction coefficient calculation unit 36 assigns each class code class' to the normality shown in the above equation (11). An equation is established, and this normal equation is solved for each W n by using a general matrix solution method such as a sweep method, and a prediction coefficient is calculated for each class code. The prediction coefficient calculation unit 36 writes each calculated prediction coefficient (D36) in the prediction coefficient memory 15.
[0071]
As a result of such learning, the prediction coefficient memory 15 has prediction coefficients for estimating high-quality audio data y for each pattern defined by the quantized data q 1 ,..., Q 6 . Stored for each class code. The prediction coefficient memory 15 is used in the audio signal processing apparatus 10 described above with reference to FIG. With this process, the learning of the prediction coefficient for creating high-quality audio data from normal audio data according to the linear estimation formula is completed.
[0072]
In this way, the learning circuit 30 considers the degree to which the audio signal processing apparatus 10 performs the interpolation process, and performs the thinning process of the high-quality teacher audio data with the student signal generation filter 37, thereby the audio signal processing apparatus 10. Predictive coefficients for the interpolation process can be generated.
[0073]
In the above configuration, the audio signal processing apparatus 10 obtains the class code class of the audio waveform itself by normalizing the audio waveform with the dynamic range in the ADRC processing of the class classification unit 14. In this case, the phonemes are often different near the zero level and large amplitude part of the audio waveform, and if classification is performed based on the result of simply normalizing with the dynamic range, even the original phonemes are regarded as the same class. May end up. Accordingly, the class classification unit 14 calculates the class code class ′ by integrating the polarity class CLASS of the audio waveform into the class code class of the audio waveform itself, and uses this as a class classification result for the prediction calculation, thereby obtaining the audio waveform. Even when the class code obtained from the same class is the same class, it can be classified reliably according to the polarity class of the audio waveform.
[0074]
For example, when the polarity class is CLASS0 or CLASS3, this means that all the values of the clipped audio waveform data are positive or negative, that is, a waveform portion having a relatively large amplitude, and When the polarity class is CLASS1 or CLASS2, this indicates that the cut-out audio waveform is a waveform including a zero-cross portion and a positive or negative value, that is, a waveform portion relatively near the zero level. The class classification unit 14 can classify different phonemes as different class codes by integrating the polarity class into the class code class of the audio waveform data itself and performing class classification.
[0075]
According to the above configuration, the input audio data D10 is classified using the polarity class of the input audio data D10, and the prediction calculation is performed using the prediction coefficient based on the classification result. The data D10 can be converted into audio data D16 with higher sound quality.
[0076]
In the above-described embodiment, in the audio signal processing device 10 and the learning device 30, the input audio data D10 and D37 are always set to a certain range by the class classification unit extraction units 12 and 32 and the prediction calculation unit extraction units 13 and 33. However, the present invention is not limited to this. For example, as shown in FIG. 6 and FIG. 7 in which the same reference numerals are assigned to corresponding parts to FIG. 1 and FIG. Extraction control signals CONT11 and CONT31 based on the polarity classes calculated in step S12, variable class classification unit extraction unit 12 ', variable prediction calculation unit extraction unit 13' and variable class classification unit extraction unit 32 ', variable prediction calculation unit extraction unit 33 The cut-out range (tap) of the input audio data D10 and D37 may be controlled by supplying to.
[0077]
In this case, the polarity discriminating units 11 and 31 control the cutout range (tap cutout length) based on the frequency of the polarity classes CLASS0, CLASS1, CLASS2 and CLASS3, thereby positively increasing the tap cutout length. The fall of the classification frequency to only sex (CLASS0) or only negative polarity (CLASS3) can be prevented.
[0078]
In this case, the audio data conversion processing procedure is the same as the determined polarity after step SP12 for determining the polarity of the audio waveform, as shown in FIG. Based on this, processing step SP21 for controlling the tap extraction region in the variable class classification unit extraction units 12 ′ and 32 ′ and the variable prediction calculation unit extraction units 13 ′ and 33 ′ may be inserted.
[0079]
In the above-described embodiment, the case where four polarity classes CLASS0, CLASS1, CLASS2, and CLASS3 are provided as polarity classes has been described. However, the present invention is not limited to this, and all positive regions, all negative regions, and zero crossing are provided. You may make it classify | categorize into the three polarity classes of the area | region containing.
[0080]
Further, in the above-described embodiment, the case where the linear linear method is used as the prediction method has been described. However, the present invention is not limited to this, and in short, the learned result may be used. Various prediction methods such as a technique can be applied.
[0081]
In the above-described embodiment, the case where the class classification unit 14 generates a compressed data pattern by ADRC has been described. However, the present invention is not limited to this, and lossless coding (DPCM: Differential Pulse Code Modulation) or vector quantum is used. Compression means such as vectorization (VQ: Vector Quantize) may be used.
[0082]
In the above-described embodiment, the case where the student signal generation filter 37 of the learning circuit 30 thins out a predetermined number of samples from the teacher audio data D30 has been described. However, the present invention is not limited to this, and for example, the number of bits is reduced. Various other methods can be applied.
[0083]
【The invention's effect】
In order to solve such a problem, in the present invention, a class of a digital audio signal is classified based on the polarity of the digital audio signal with reference to a zero level, and the digital audio signal is converted by a prediction method corresponding to the classified class. By doing so, it is possible to classify according to phonemes, so that conversion adapted to the characteristics of the digital audio signal can be performed.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a digital signal processing apparatus according to the present invention.
FIG. 2 is a signal waveform diagram for explaining polarity discrimination.
FIG. 3 is a block diagram showing a configuration of an audio signal processing apparatus.
FIG. 4 is a flowchart showing an audio signal conversion processing procedure.
FIG. 5 is a block diagram showing a configuration of a learning device according to the present invention.
FIG. 6 is a block diagram showing another embodiment of the digital signal processing apparatus.
FIG. 7 is a block diagram showing another embodiment of the learning device.
FIG. 8 is a flowchart showing an audio signal conversion processing procedure according to another embodiment.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 ... Audio signal processor, 11, 31 ... Polarity discrimination part, 14, 34 ... Class classification part, 15 ... Prediction coefficient memory, 16 ... Prediction calculation part, 36 ... Prediction coefficient calculation part, 37 ... ... Student signal generation filter.

Claims (16)

ディジタルオーディオ信号を変換するディジタル信号処理装置において、
ゼロレベルを基準として上記ディジタルオーディオ信号の極性を判別する極性判別手段と、
上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
を具えることを特徴とするディジタル信号処理装置。
In a digital signal processing apparatus for converting a digital audio signal,
Polarity discriminating means for discriminating the polarity of the digital audio signal on the basis of zero level ;
Class classification means for classifying the class of the digital audio signal based on the polarity discrimination result;
Predictive calculation means for generating a new digital audio signal obtained by converting the digital audio signal by predictive calculation of the digital audio signal by a prediction method corresponding to the classified class. Digital signal processing device.
上記極性判別手段は、上記ディジタルオーディオ信号を時間軸領域に分割し、各分割領域ごとにその極性を判別する
ことを特徴とする請求項1に記載のディジタル信号処理装置。
The digital signal processing apparatus according to claim 1, wherein the polarity discriminating unit divides the digital audio signal into time axis regions and discriminates the polarity for each divided region.
上記極性判別手段は、上記ディジタルオーディオ信号を少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けする
ことを特徴とする請求項1に記載のディジタル信号処理装置。
2. The digital signal processing apparatus according to claim 1, wherein the polarity discriminating unit classifies the digital audio signal into at least three regions, that is, a positive region only, a negative region only, and a region including a zero cross.
上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
ことを特徴とする請求項1に記載のディジタル信号処理装置。
The digital signal processing apparatus according to claim 1, wherein the prediction calculation means uses a prediction coefficient generated by learning based on a desired digital audio signal in advance.
ディジタルオーディオ信号を変換するディジタル信号処理方法において、
ゼロレベルを基準として上記ディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を具えることを特徴とするディジタル信号処理方法。
In a digital signal processing method for converting a digital audio signal,
A polarity determination step for determining the polarity of the digital audio signal on the basis of zero level ;
A class classification step for classifying the class of the digital audio signal based on the polarity discrimination result;
A prediction calculation step of generating a new digital audio signal obtained by converting the digital audio signal by performing a prediction calculation of the digital audio signal by a prediction method corresponding to the classified class. Digital signal processing method.
上記極性判別ステップでは、上記ディジタルオーディオ信号は時間軸領域に分割され、各分割領域ごとにその極性が判別される
ことを特徴とする請求項5に記載のディジタル信号処理方法。
6. The digital signal processing method according to claim 5, wherein in the polarity determination step, the digital audio signal is divided into time axis regions, and the polarity is determined for each divided region.
上記極性判別ステップでは、上記ディジタルオーディオ信号は少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けされる
ことを特徴とする請求項5に記載のディジタル信号処理方法。
6. The digital signal processing method according to claim 5, wherein in the polarity determination step, the digital audio signal is classified into at least three regions, that is, a positive region only, a negative region only, and a region including a zero cross. .
上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
ことを特徴とする請求項5に記載のディジタル信号処理方法。
The digital signal processing method according to claim 5, wherein a prediction coefficient generated by learning based on a desired digital audio signal is used in the prediction calculation step.
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別手段と、
上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を具えることを特徴とする学習装置。
In the learning apparatus for generating prediction coefficients used for prediction calculation of conversion processing of a digital signal processing apparatus for converting a digital audio signal,
Student digital audio signal generating means for generating a student digital audio signal obtained by degrading the digital audio signal from a desired digital audio signal;
Polarity discriminating means for discriminating the polarity of the student digital audio signal on the basis of zero level ;
Class classification means for classifying the class of the student digital audio signal based on the determined polarity;
A learning apparatus comprising: prediction coefficient calculation means for calculating a prediction coefficient corresponding to the class based on the digital audio signal and the student digital audio signal.
上記極性判別手段は、上記ディジタルオーディオ信号を時間軸領域に分割し、各分割領域ごとにその極性を判別する
ことを特徴とする請求項9に記載の学習装置。
The learning apparatus according to claim 9, wherein the polarity determination unit divides the digital audio signal into time axis regions and determines the polarity for each divided region.
上記極性判別手段は、上記ディジタルオーディオ信号を少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けする
ことを特徴とする請求項9に記載の学習装置。
The learning apparatus according to claim 9, wherein the polarity discriminating means classifies the digital audio signal into at least three regions, that is, a positive region only, a negative region only, and a region including a zero cross.
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を具えることを特徴とする学習方法。
In the learning method for generating prediction coefficients used in prediction calculation of conversion processing of a digital signal processing apparatus for converting a digital audio signal,
A student digital audio signal generating step for generating a student digital audio signal obtained by degrading the digital audio signal from a desired digital audio signal;
A polarity determination step for determining the polarity of the student digital audio signal with reference to zero level ;
A classifying step of classifying the class of the student digital audio signal based on the determined polarity;
A learning method comprising: a prediction coefficient calculating step of calculating a prediction coefficient corresponding to the class based on the digital audio signal and the student digital audio signal.
上記極性判別ステップでは、上記ディジタルオーディオ信号は時間軸領域に分割され、各分割領域ごとにその極性が判別される
ことを特徴とする請求項12に記載の学習方法。
13. The learning method according to claim 12, wherein in the polarity determination step, the digital audio signal is divided into time axis regions, and the polarity is determined for each divided region.
上記極性判別ステップでは、上記ディジタルオーディオ信号は少なくとも、正領域のみ、負領域のみ及びゼロクロスを含む領域の3つの領域に極性クラス分けされる
ことを特徴とする請求項12に記載の学習方法。
13. The learning method according to claim 12, wherein in the polarity discrimination step, the digital audio signal is classified into at least three regions, that is, only a positive region, only a negative region, and a region including a zero cross.
ゼロレベルを基準としてディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記極性判別結果に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測係数を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
A polarity determination step for determining the polarity of the digital audio signal based on the zero level ;
A class classification step for classifying the class of the digital audio signal based on the polarity discrimination result;
A prediction calculation step for generating a new digital audio signal obtained by converting the digital audio signal by performing a prediction calculation on the digital audio signal using a prediction coefficient corresponding to the classified class. A computer-readable storage medium for recording a program.
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
ゼロレベルを基準として上記生徒ディジタルオーディオ信号の極性を判別する極性判別ステップと、
上記判別された極性に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
A student digital audio signal generating step for generating a student digital audio signal obtained by degrading the digital audio signal from a desired digital audio signal;
A polarity determination step for determining the polarity of the student digital audio signal with reference to zero level ;
A classifying step of classifying the class of the student digital audio signal based on the determined polarity;
A computer-readable program storage medium storing a program for executing a prediction coefficient calculation step of calculating a prediction coefficient corresponding to the class based on the digital audio signal and the student digital audio signal.
JP2000238892A 2000-08-02 2000-08-02 DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM Expired - Fee Related JP4645867B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000238892A JP4645867B2 (en) 2000-08-02 2000-08-02 DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000238892A JP4645867B2 (en) 2000-08-02 2000-08-02 DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM

Publications (2)

Publication Number Publication Date
JP2002049383A JP2002049383A (en) 2002-02-15
JP4645867B2 true JP4645867B2 (en) 2011-03-09

Family

ID=18730523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000238892A Expired - Fee Related JP4645867B2 (en) 2000-08-02 2000-08-02 DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM

Country Status (1)

Country Link
JP (1) JP4645867B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4538705B2 (en) 2000-08-02 2010-09-08 ソニー株式会社 Digital signal processing method, learning method and apparatus, and program storage medium
JP4596196B2 (en) 2000-08-02 2010-12-08 ソニー株式会社 Digital signal processing method, learning method and apparatus, and program storage medium
TWI237546B (en) 2003-01-30 2005-08-01 Osram Opto Semiconductors Gmbh Semiconductor-component sending and/or receiving electromagnetic radiation and housing-basebody for such a component
JP5366399B2 (en) 2004-05-31 2013-12-11 オスラム オプト セミコンダクターズ ゲゼルシャフト ミット ベシュレンクテル ハフツング Optoelectronic semiconductor component and casing substrate for the component

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104793A (en) * 1993-09-30 1995-04-21 Sony Corp Encoding device and decoding device for voice
JPH0884335A (en) * 1994-09-10 1996-03-26 Sony Corp Image signal processing method and image signal transmitter
JPH08149465A (en) * 1994-11-17 1996-06-07 Sony Corp Band-compressed signal restoring device
JPH08265711A (en) * 1995-03-22 1996-10-11 Sony Corp Signal converter and signal conversion method
JPH0922298A (en) * 1995-01-12 1997-01-21 Blue Chip Music Gmbh Method and apparatus for recognition of pitch
JPH10187186A (en) * 1996-12-26 1998-07-14 Sony Corp Device and method for recognition, and device and method for learning
JPH10313251A (en) * 1997-05-12 1998-11-24 Sony Corp Device and method for audio signal conversion, device and method for prediction coefficeint generation, and prediction coefficeint storage medium
JP2000200349A (en) * 1998-10-29 2000-07-18 Sony Corp Device and method for converting image information and device and method for learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104793A (en) * 1993-09-30 1995-04-21 Sony Corp Encoding device and decoding device for voice
JPH0884335A (en) * 1994-09-10 1996-03-26 Sony Corp Image signal processing method and image signal transmitter
JPH08149465A (en) * 1994-11-17 1996-06-07 Sony Corp Band-compressed signal restoring device
JPH0922298A (en) * 1995-01-12 1997-01-21 Blue Chip Music Gmbh Method and apparatus for recognition of pitch
JPH08265711A (en) * 1995-03-22 1996-10-11 Sony Corp Signal converter and signal conversion method
JPH10187186A (en) * 1996-12-26 1998-07-14 Sony Corp Device and method for recognition, and device and method for learning
JPH10313251A (en) * 1997-05-12 1998-11-24 Sony Corp Device and method for audio signal conversion, device and method for prediction coefficeint generation, and prediction coefficeint storage medium
JP2000200349A (en) * 1998-10-29 2000-07-18 Sony Corp Device and method for converting image information and device and method for learning

Also Published As

Publication number Publication date
JP2002049383A (en) 2002-02-15

Similar Documents

Publication Publication Date Title
US5991725A (en) System and method for enhanced speech quality in voice storage and retrieval systems
JPH10307599A (en) Waveform interpolating voice coding using spline
WO1993019459A1 (en) High-efficiency encoding method
JP3478209B2 (en) Audio signal decoding method and apparatus, audio signal encoding and decoding method and apparatus, and recording medium
US5721543A (en) System and method for modeling discrete data sequences
JPH10319996A (en) Efficient decomposition of noise and periodic signal waveform in waveform interpolation
JP4596196B2 (en) Digital signal processing method, learning method and apparatus, and program storage medium
JPH0644712B2 (en) Signal processing method
JP4645867B2 (en) DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM
JP4596197B2 (en) Digital signal processing method, learning method and apparatus, and program storage medium
JP4645866B2 (en) DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM
JP4359949B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP4645869B2 (en) DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM
US20030108108A1 (en) Decoder, decoding method, and program distribution medium therefor
JPH07199997A (en) Audio signal processing method in audio signal processing system and method for reducing processing time in the processing
JP4645868B2 (en) DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM
JP4538705B2 (en) Digital signal processing method, learning method and apparatus, and program storage medium
JP4538704B2 (en) Digital signal processing method, digital signal processing apparatus, and program storage medium
JP3417362B2 (en) Audio signal decoding method and audio signal encoding / decoding method
CN118016080B (en) Audio processing method, audio processor and related device
JP2003323200A (en) Gradient descent optimization of linear prediction coefficient for speech coding
JP2000132195A (en) Signal encoding device and method therefor
WO1997016821A1 (en) Method and system for compressing a speech signal using nonlinear prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees