JP2000508440A - オーディオデータストリームにおける誤りを修整する方法 - Google Patents
オーディオデータストリームにおける誤りを修整する方法Info
- Publication number
- JP2000508440A JP2000508440A JP10544823A JP54482398A JP2000508440A JP 2000508440 A JP2000508440 A JP 2000508440A JP 10544823 A JP10544823 A JP 10544823A JP 54482398 A JP54482398 A JP 54482398A JP 2000508440 A JP2000508440 A JP 2000508440A
- Authority
- JP
- Japan
- Prior art keywords
- data
- audio data
- subgroup
- spectral energy
- intact
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000003595 spectral effect Effects 0.000 claims abstract description 63
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000000059 patterning Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 241001136792 Alle Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/18—Error detection or correction; Testing, e.g. of drop-outs
- G11B20/1876—Interpolating methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/09—Arrangements for device control with a direct linkage to broadcast information or to broadcast space-time; Arrangements for control of broadcast-related services
- H04H60/11—Arrangements for counter-measures when a portion of broadcast information is unavailable
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00992—Circuits for stereophonic or quadraphonic recording or reproducing
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Error Detection And Correction (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
(57)【要約】
オーディオデータストリームにおける誤りを修整する方法において、誤りの発生は、オーディオデータストリームにおいて検出され、誤り発生前のオーディオデータは、無傷のオーディオデータである。その後、無傷のオーディオデータのサブグループのスペクトルエネルギーが計算される。無傷のオーディオデータのサブグループについて計算されたスペクトルエネルギーに基づいて置換データのパターンが形成されてから、サブグループに相当する誤りの、または欠落しているオーディオデータについての置換データが、パターンに基づいて形成される。
Description
【発明の詳細な説明】
オーディオデータストリームにおける誤りを修整する方法
本願発明はオーディオコーディング方法、特にオーディオ信号のコード化にお
ける誤り修整技術に関する。
いわゆる「インターネットラジオ放送」、すなわちインターネット上でのラジ
オ番組の生放送は、送信者と、たとえばインターネット加入者のパーソナルコン
ピュータ中の受信側プログラムとの間に、何千ものリアルタイム接続を必要とす
る。
現在最も広くゆきわたっているインターネットプロトコルhttpは、誤りの
無い送信を保証するが、リアルタイム特性を有していない。このプロトコルは、
受信ステーションの数に比例するだけの、送信者側で積まれるネットワークを必
要とする。これは、コード化された信号のデータレートに応じて同時聴取者が典
型的に数百に限られることを意味し、それは「放送アプリケーション」すなわち
ラジオまたはテレビ信号の送信が行われるアプリケーションには確実に十分でな
い。
たとえばrtp(rtp=リアルタイム・トランスミッション・プロトコル)
などのインターネット上でのデータ送信のための新しいプロトコルは、http
プロトコルとは違い、送信中の誤りを許容して、この隘路を避けている。
これは、誤りの送信データをどのように扱うかに関して、受信者側に問題を提
起する。たとえばマルチメディアまたはオーディオデータストリームの部分の欠
落がどのようにして埋められるのか?
先行技術において既に公知の誤り管理方法がある。元も単純な種類の誤り修整
であるミュート切り換え方法では、データが欠落しているか誤りであるかぎり、
再生がオフに切り換えられる。欠落データはヌル信号に置き換えられる。心理音
響学効果のため、この信号エネルギーにおける突然の降下と上昇は、非常に不快
に感じられる。ミュート切り換え方法は、たとえばDetlef Wiese著
“Error Concealment Strategies for Di
gital Audio Broadcasting”,92th AES C
onvention,Wien 1992,Preprint 3264、およ
びDetlef Wiese著“Anwendung von Fehlerv
ている。
別の公知の方法は、データ反復の方法である。あるデータストリームが中断す
ると、最後に送信されたデータの部分がループ状に反復される。公知のオーディ
オコーディング方法の大半を構成しているブロック式方法では、たとえば最後に
送信された1つのブロックまたは複数のブロックが反復される。そのような方法
は、既に引用した文献から公知である。
この方法は、不快な続発性発現または人工物に繋がる。しかしながら、もしオ
ーディオ信号の短い部分のみが反復されるならば、反復信号は−オリジナルの信
号がなんであれ−基本周波数が反復周波数となり、機械的な音がする。より長い
部分が反復されると、「エコー効果」が生じ、これもまた不快に感じられる。
更なる方法、すなわちデータ補間方法は、データストリームが比較的高い遅延
で送信される場合に、オーディオデータ信号の誤りギャップが修整されなければ
ならないとすれば、有効オーディオデータは既に再び存在しているという可能性
に基づく。Laurent Filliat,Mario Rossi,Jos
eph Maisano“Error Correction by Inte
rpolation in Digital Audio”,92.AES C
onvention,Wien 1992,Preprint 3281に記述
されているように、補間はギャップ中のデータを生成するのに用いられる。
この方法の欠点は、多くの場合、特に電話技術アプリケーションに関して、遅
延は許容されないということである。
ブロック式変換コーダ/デコーダにおいて、スペクトル線毎の信号エネルギー
は、ひとつのブロックから次のものへと予測または「賓述される」ことが可能で
hleierung bei spektral codierten Aud
に良好な誤り修整という結果を得ているが、比較的高度な演算上の努力が必要と
され、そのことが受信したマルチメディアまたはオーディオデータ信号のデコー
ディングを現在不可能としている。
当該技術分野においてまた公知であるのは、データストリームにおける冗長性
増加の実行である。コーダまたは送信器において、オーディオデータストリーム
中に、(おそらくより低いデータレートおよびそれに応じたより低い品質で)同
じ信号を送信する第2のデータストリームを最初から導入することが可能である
。この第2のデータストリームが、第1のデータストリームに関する時間におい
て置換されるならば、各瞬間に、2つのストリームのうちの少なくとも1つから
有効データが受信される可能性がある。それゆえ1つの信号の喪失はもう一方の
信号によって埋められる。主要な信号が誤りである場合、この方法は真の情報の
再現をもたらすが、通常はより劣悪な品質である。
前記の方法のように、この方法は送信者と受信者の間の遅延を増し、よってデ
ータ補間の場合と同じ不利益が生じる。更に、ある程度まで同一の第2の信号が
送信されるが、それは特に低いデータレートまたは低い有効送信バンド幅では許
容できないので、データレートが増加する。
ステレオ信号の送信については、送信における誤りを修整する更なる方法があ
る。左/右交換方法において、Detlef Wiese著“Error Co
ncealment Strategies for Digital Aud
io Broadcasting”,92.AES Convention,W
ien 1992,Preprint 3264、Detlef Wiese著
“Anwendung von Fehlerverschleierungserverschleierung bei spektral codier
ten Audiosignalen”,Dissertation,Univ
995に記述されているように、妨害された、または失敗したチャンネルは、各
々他方のテャンネルによって交換されることが可能である。しかしながら、概し
て両方のチャンネルのデータは同時に送信され、よって同時に妨害される。その
代わりに、ここで関係するのはデーダストリームにおける冗長性を増加させる方
法の特別な場合である。この方法は更に、左右のチャンネルが互いに独立してデ
コードされることが可能である場合のみに採用され得る。しかし、たとえばMP
EGレイヤー3標準によって規定されるいわゆる「ジョイントステレオ」モード
については、これは不可能である。
本願発明の目的は、効果的な誤り修整を達成し、かつできるだけ非可聴の、オ
ーディオデータストリームにおける誤り修整の方法をもたらすことである。
この目的は請求項1による方法によって達せられる。
本願発明によるオーディオデータストリームにおける誤り修整方法は、下記の
ステップを含む:
オーディオデータストリーム中の誤りの発生を検出するステップであり、誤り
が発生する前のオーディオデータは無傷のオーディオデータであるステップ;
無傷のオーディオデータのサブグループ中のスペクトルエネルギーを計算する
ステップ;
無傷のオーディオデータのサブグループについて計算されたスペクトルエネル
ギーに基づいて置換データのパターンを形成するステップ;および
パターンに基づいて、サブグループに相当する誤りの、または欠落しているオ
ーディオデータの置換データを形成するステップである。
本願の意味でのサブグループは、数個の連続した周波数ラインを常に含む。そ
れゆえ、周波数ドメインは連続したサブグループに分割され、各サブグループは
連続した周波数ラインを有する。サブグループは心理音響学の分野で公知の周波
数グループに対応できることが好ましい。しかし、後ほど記述されるように、周
波数グループとは異なるサブグループの分割を選択することも可能である。
以降の詳細な記述から明らかになるように、この方法は、増大された遅延また
はデータレートの増加、すなわちソースコーディングの変更を必要とせず、また
単純に反復される信号セクションの好ましくない時間および周波数構造を示さな
いので、先行技術における欠点を克服する。たとえば既に触れたスペクトル予測
の方法とは対照的に、本願発明による方法は、聴覚調節されたノイズ置換をもた
らす。出発点は、当業者には公知の多くの方法で得られる時間的オーディオ信号
周波数表示である。“Psychoacoustics,Facts and
Models”1990においてZwickerとFastlにより説明された
ように、信号のスペクトルはいわゆる周波数グループにグループ化され得る。こ
れは、聴覚関連特性を考慮したバークの周波数軸のスケーリングへと繋がり、そ
のような考慮がされないヘルツの周波数軸の習慣的なスケーリングとは対照的で
ある。1バークとは隣接する周波数グループ間の周波数差である。Zwicke
rにより定義された1周波数グループとは、聴力閾値を形成するために、個々の
トーンの強度が人間の耳によって加算される最大バンド幅である。
本願発明は、誤り修整について、「良好な」スペクトル形態で不規則信号を形
成すれば十分であるとの認識に基づく。本文脈において「良好な」とは、不規則
信号の周波数グループのスペクトルエネルギーが、誤り発生前の無傷のオーディ
オデータのスペクトルエネルギーに整合する、またはそれから引き出されるとい
うことである。
本願発明の様々な実施例を検討する前に、本願発明を理解するために重要な他
の概念を簡単に説明する。
本願において周波数ラインの「スペクトルエネルギー」が言及される場合、こ
れはたとえばフーリエ変換により計算された、このスペクトル成分の振幅の二乗
として理解されるべきである。他方、サブグループの「スペクトルエネルギー」
について言及される場合、これはたとえばフーリエ変換により計算された、この
サブグループにおけるスペクトル成分の二乗された振幅の和と理解されるべきで
ある。しかし、「スペクトルエネルギー」という表現が、完全に厳密には使用さ
れないことに注目するのは重要である。たとえば本願発明による方法がMPEG
レイヤー3により作動するコーダにおいて実行されるならば、方法はMDCTラ
イン(MDCT=修正離散コサイン変換)に基づいて続行される。しかし、そこ
で用いられるところのオーバラップおよび窓かけを伴う修正離散コサイン変換は
、厳密な意味でエネルギー保存的ではない。これは、MDCTスペクトルから、
たとえばフーリエ変換の意味での周波数ライン毎のエネルギーを知見する単純な
方法がないという意味である。逆に、このエネルギーが知見される場合、必要な
エネルギーを含むMDCTスペクトルを形成するのは容易ではない。よって、「
スペクトルエネルギー」という表現は、エネルギー保存的フーリエ変換およびエ
ネルギー保存的「でない」修正離散コサイン変換または公知の類似の非エネルギ
ー保存的変換方法の両方を指す。しかしながら、オーディオデータストリームに
おける誤り修整の方法が、通常可能でないオリジナルのデータの正確な再構成で
はなく、できるだけ誤りが非可聴に発生して修整される置換データの推測に関係
するので、本願発明による方法の有用性は、正確なエネルギー保存に依存するも
のではない。
更に、本願では、誤り発生前のオーディオデータまたは無傷のオーディオデー
タについてしばしば言及される。これらの表現は、たとえばインターネットから
読み込まれるプログラムの実際の受信工程を指しているのではないことに注目す
べきである。いくつかのインターネットプロトコルでは、連続的に伝送されたデ
ータパケットが異なった順番で到達するものもある。それゆえ、誤り発生前のオ
ーディオデータについて言及される場合、ここではリアルタイムではなく、オー
ディオデータストリームにより特定された順番について言及されている。また、
誤り発生前のオーディオデータは、明らかに、もっと早いある時点でも誤りであ
る、または欠落しているはずであることにも注目すべきである。しかし、もしオ
ーディオデータストリームにおいて誤りが検出されるなら、これは無傷のオーデ
ィオデータが誤り発生前に必ず存在していたことを意味する。これは、本願発明
の方法がオーディオデータストリームにおける一番最初の誤りしか扱えないとい
う意味ではない。
既に述べたように、オーディオデータの予想外の欠落および誤りの、すなわち
部分的に破損しているオーディオデータの存在は、本願では誤りと記述される。
それゆえ、誤りのオーディオデータが置換データにより置換される場合、これは
部分的に破損したオーディオデータが置換データによって置換されること、およ
び予想外にオーディオデータが存在していない場所に、置換データが挿入される
ことのいずれをも意味する。
更に、本願において、スペクトルエネルギーが無傷のオーディオデータに基づ
いて計算されると述べられる場合、これは現在の誤りと最後の誤りとの間の無傷
のオーディオデータ全体が用いられるという意味に解釈されるべきではない。そ
の代わりに、誤り発生前のオーディオデータストリームを表す無傷のオーディオ
データの量は、個々のアプリケーション次第である。ブロック式で作動する本願
発明の実施例において、無傷のオーディオデータの量は、たとえば最後の1つの
ブロックまたは数個の最後のブロックのオーディオデータのみを含むかもしれな
い。更に、たとえばあるブロックの無傷のオーディオデータが必ずしも全て使用
される必要はなく、たとえばサブグループ毎のエネルギーに関する情報を含むオ
ーディオデータのみが使用される。本願発明による方法の長所のひとつはまさに
、誤りの際、必ずしも全ての周波数ラインが記憶および賓述される必要がないこ
とにある。しかし、置換データのパターン形成に使用されるオーディオデータが
多いほど、誤りを修整するための置換データがスペクトルパターンからより正確
に形成される。
以下において、スペクトルでコード化されたオーディオデータを形成、送信す
るオーディオコーディング方法の見地から、本願発明による方法が詳細に説明さ
れる。たとえばMPEGレイヤー1〜3、MPEG AAC、Dolby AC
−3、PAC等の現在のオーディオコーディング方法のほとんどは、スペクトル
でコード化されたオーディオデータを伝送し、それらが受信され、適当なデコー
ダによりデコードされ、もとの時間ドメインに変換される。
周知のように、コード化されるアナログ信号は、離散時間信号を得るために、
たとえば44.1kHzの適当な分解周波数で分解される。そして、遠距離通信
の分野では周知であるように、窓関数によって特にブロックの境界の方向に重み
付けされた、特定の数の個々の時間離散信号値のブロックを得るために、そのよ
うな離散時間信号は、適当な窓関数を用いて窓かけされる。窓関数により重み付
けされた時間離散信号のブロックは、適当な変換方法で時間ドメインから周波数
ドメインに変換される。適当な変換方法とは、高速フーリエ変換(FFT)、フ
ィルタバンク法または修正離散コサイン変換(MDCT)でよい。変換後、時間
離散信号のブロックは、周波数ラインのブロックとして存在する。そして、周波
数ラインのブロックまたは時間離散信号値のブロックの周波数スペクトルは、量
子化される。心理音響学条件を考慮して、特定の状況下で、量子化により導入さ
れる量子化誤りを、可聴でないように、すなわち人間の耳の聴覚の閾値より下と
なるように作ることが可能である。
現在のオーディオコーディング方法では、量子化された形で存在するスペクト
ル線は、たとえばハフマンコーディングにより冗長性抑圧を受け、オーディオデ
ータストリームにおけるデコーディングに必要なページ情報と共にパック化され
て、受信者への送信の準備が完了する。
この時点で、本願における「オーディオデータストリーム」という表現は、前
述のように形成されたオーディオデータストリームのみならず、コード化されて
いるといないとにかかわらず、いかなる形態のオーディオデータをも含むことが
注目されるべきである。それゆえ、本願発明では、オーディオデータストリーム
は、等しい長さのブロックまたはその他のあらゆる種類のブロックに細分される
必要はない。しかし、オーディオデータストリームがブロックの形でスペクトル
にコード化されて存在するならば、本願発明による方法は、最小の努力で実行可
能である。オーディオデータストリームが他の形態で存在しているならば、本願
発明による方法を実行するために、公知のステップおよび方法を用いてオーディ
オデータを形成することが可能である。
それゆえ、本願発明による方法は、4つのステップを含む。第1のステップは
、オーディオデータストリーム中の誤りの発生の検出にあり、第2のステップお
よび第3のステップは、誤り発生前のオーディオデータストリームを表すオーデ
ィオデータ、すなわち無傷のオーディオデータにおけるサブグループのスペクト
ルエネルギーを計算し、それから無傷のオーディオデータのサブグループについ
て計算されたスペクトルエネルギーに基づき、置換データのパターンを形成する
ことにある。最後のステップは、サブグループの既に形成されたパターンに基づ
いて、誤りの、または欠落しているオーディオデータの置換データを形成するこ
とにある。
そのとき第1のステップは誤りの発生の検出にある。入力データストリームが
喪失または誤りを表示し、それがコード化されたオーディオ信号のたとえばチェ
ックサムをチェックするための装置またはそれに類似の適当な装置を用いて検出
が可能である場合、データの特定の部分が、この誤り発生前に、たとえばリング
バッファに記憶され得る。
本願発明による方法は、各サブグループについてのスペクトルエネルギーを計
算する。(サブグループが周波数グループに対応する場合)線形予測の公知の変
形例が、本願発明の方法に比べて典型的に20から30倍の記憶および演算を必
要とするのに対し、本願発明による各サブグループのスペクトルエネルギーは、
効率的かつ経済的に計算され得る。しかしながら、前記の記憶および演算量は、
誤り修整にのみ当てはまることが指摘されるべきである。
たとえば完全なMPEGレイヤー3デコーダの全体の複雑さ(記憶または演算
時間)は、通常それほど増加しない。他方、線形予測が用いられたならば、コー
ダ/デコーダの全体の演算量は実に著しく上昇する。
サブグループ毎のスペクトルエネルギーは、サブグループにおけるスペクトル
成分の振幅の二乗の和で構成される。それゆえ、サブグループ毎のスペクトルエ
ネルギーは、このサブグループの二乗されたラインの和に相当する。これは、現
代のコーダについて慣習的であるように、時間離散オーディオ信号を周波数ドメ
インに変換するための時間−周波数変換に、MDCTを用いた場合にもFFTを
用いた場合にも然りである。しかしここで、フーリエ変換と違ってMDCTは正
確にはエネルギー保存的でないという前出の言及について触れておく。
サブグループのスペクトルエネルギーは、それゆえに置換データのパターンを
形成するための基礎である。置換データは、短時間統計の意味で「スペクトル的
に平均の」スペクトルを示しているべきである。「スペクトル的に平均」とは、
そのような信号の一部が、本願発明の方法によって置換されたとき、特に目立た
ない、すなわち置換が隠されているという意味である。
簡潔にする理由で、本願発明の以下の記述は、現代のオーディオコーダのほと
んどがそうであるブロック式方法の観点からもたらされる。しかしながら、本願
発明はブロック式方法に限定されないということが指摘される。方法の必要条件
とは、信号のスペクトル成分に関する情報が得られ、よってそこからサブグルー
プ毎のスペクトルエネルギーが計算されるということである(当然ながら、これ
はブロック式変換コーデックについて特に容易である)。
置換データのパターンすなわち短時間統計を確認するため、過去に受信された
データ(無傷のデータ)が用いられる。原理的には、信号経路に遅延を導入した
後に、誤り後の「未来の」データを使月して補間を行うことも可能である。しか
し、それによる不利益は、既に述べた遅延にある。だが本願発明の方法は、補間
ではなく予測を用いている。予測の演算の結果とは常により早い時間のデータか
ら引き出されたより遅い時間のスペクトルなので、予測について言及することは
可能である。それゆえ、もし誤りが発生したら、誤り発生前のオーディオデータ
、すなわち無傷のオーディオデータは、誤りを修整するため、人工的に形成され
た置換データを誤りのデータまたは欠落データの場所に挿入するために常に使用
される。しかし、「予測」という表現は、文献では通常より限定的に解釈されて
いることが指摘されるべきである。無傷のオーディオデータのサブグループにつ
いて計算されたスペクトルエネルギーに基づく置換データのパターン形成は、多
少複雑化され得るのであり、よって多少正確にされ得る。
後述の個々の方法について、前もって以下の約束事が特定される。Xiは、ブ
ロックiの短時間スペクトル、すなわち短時間スペクトル成分のベクトルを意味
する。Ei(f)は、ブロックiにおける中間周波数fのサブグループのスペク
トルエネルギーを表す。ここで、i=0とは、賓述されるべきブロック、すなわ
ち置換データのブロックを表し、負iは無傷のオーディオデータの記憶されたブ
ロックを表し、Nは記憶されたブロックの数に相当することに留意すべきである
。Ev(f)は、中間周波数fのサブグループにおけるパターンにより必要とさ
れるエネルギーを表す。
計算の複雑さが増してゆく順番に整理された、置換データのパターンを形成す
るための以下の方法が適当であるとみなされ得る:
1. 最後に受信されたブロックのサブグループ毎のスペクトルエネルギーが、直
接欠落ブロックのパターンとして使用される。これは以下の式で表される:
Ev=E-1
2. 先行のブロックの相当するサブグループのスペクトルエネルギーのパワーの
1次結合としてパターンが現れる:
−N bi
Ev(f)= Σ aiEi(f)
i=−1
aiは1次結合の不変係数であり、biは個々のスペクトルエネルギーを重み付
けするための指数である。ここでもまた最も簡単な場合は平均を取ることであり
、以下の係数値で表されてよい:
ai=1/Nおよびbi=1
3. 置換データのパターンはまた、前のエネルギーのメジアンの形成によって得
られる。これは以下の式で表されてよい:
Ev(f)=median{Ei(f),i=−1...−N}
代わりに、Ei(f)から最小、二番目に最小、・・・・、二番目に最大また
は最大のエレメントがメジアンの形成に用いられるであろう。
4. しかし、無傷のオーディオデータのサブグループについて計算されたスペク
トルエネルギーに基づく置換データのパターンは、線形適応予測の方法により計
算することも可能である。これは、式に時間依存的係数ai(t)がなくてはな
らないが、第2の場合に示される式に相当する。この場合、未来に存在するエネ
ルギーも計算できる。置換データのパターンを形成するための線形適応予測は、
データストリームにおいて1つより多いデータブロックが欠落しているまたは置
換されなければならない場合、特に有益である。
この時点で、置換データのパターンを計算するための先行のリストは、完全さ
を要求するものではないことに注目すべきである。重要なのは単に、サブグルー
プの置換データのパターンは、特定の数の、無傷のオーディオデータの先行の相
当するサブグループのスペクトルエネルギーから得られるということである。
さて、無傷のオーディオデータのサブグループについて計算されたスペクトル
エネルギーに基づいて置換データのパターンが形成されたところで、方法の最後
のステップは、オーディオデータストリームの誤りまたは欠落オーディオデータ
の場所に挿入される、または置換されるべき置換データを形成することにある。
置換データは、置換データのパターンと同じサブグループ毎のスペクトルエネ
ルギーを示すように形成されるべきである。それゆえ、基本的な方法は、最終的
な解析ではスペクトル成分となる、誤りの、または欠落しているオーディオデー
タを、人工的に形成されたスペクトル成分によって置換することにある。よって
、境界条件は、あるサブグループにおける人工的に形成されたスペクトル成分は
、共にパターンによって与えられたのと同じスペクトルエネルギーを示すという
ことである。これについては様々な可能性がある。たとえば、あるサブグループ
における全てのスペクトル値が同じ値であり得、スペクトル値または周波数ライ
ンの振幅には、そのスペクトルエネルギーがパターンの相当するスペクトルエネ
ルギーに対応するという要件が与えられている。
サブグループの境界のスペクトル値を減衰させ、サブグループの中間のスペク
トル値を強調することにある特定の重み付けを最初から特定することに、更なる
可能性が存する。しかし、相当するスペクトル値はともに、パターンの相当する
サブグループと同じスペクトルエネルギーを有さなければならない。
しかしながら、置換データを形成するための好ましい方法は、あるサブグルー
プ内の全てのスペクトル成分を、−1と+1の間の等分布不規則値X(f)に設
定し、続いて、形成されたばかりの信号のレベルが、各サブグループ内でパター
ンにより必要とされるスペクトルエネルギーを有するように増加/減少される、
スケーリングまたは正規化を行うことに存する。
これを達成するため、不規則信号Xの形成後、定義により−1と+1の間の値
を持つ各々のラインX(f)を、相当するサブグループ内で、正規化因子αとも
呼ばれる以下の指数で乗算することが必要である。
f∈中間周波数fkのサブグループ
ここで、Ev(fk)は、中間周波数fkのあるサブグループk内のパターンに
おけるスペクトルエネルギーを表す。よってEv(fk)は、中間周波数fkに関
するサブグループkのパターンを表す。
分母における加算を省くことができるように上述の要件を簡潔にするため、不
規則信号はまた+Pと−Pの間の等分布値を含むように生成されることが可能で
あり、そこでPは次の値でなくてはならない:
そのときこの信号のエネルギーは、高い確率で、必要とされるエネルギーEv
(fk)の近くにある。これは比較的多い数(約10)の周波数ラインを含むサ
ブグループについてももちろん真である。これは、−1と+1の間の等分布値の
平均平方は、1/3に等しいからである。
こうしてサブグループについて形成された置換データまたはスペクトル成分は
、誤りの無いデータまたはスペクトル値と全く同じように、デコーダによって処
理される。人工的に形成されたデータにおけるサブグループのスペクトルエネル
ギーは、最後の無傷のブロックにおけるサブグループのスペクトルエネルギーに
相当するか、または数個の先行するブロックのサブグループのスペクトルエネル
ギーから引き出されることから、人工的に形成された置換データまたは人工的に
形成された置換データのブロックは、オーディオ信号の信号統計がおおよそ等分
布であれば、非可聴である。よって誤りは修整される。
オーディオデータストリームにおける誤りを修整するための本願発明による方
法では、信号について非定型の統計を有するブロックが置換の基礎として使用さ
れる可能性があるので、不定信号は問題を生ずるかもしれない。すぐ後に誤りの
ブロックが続く非定型の統計を有するブロックが、誤りのブロックについての置
換データのパターン形成の中心となり、それによって可聴の誤りが導入されるこ
とを防ぐため、単一のブロックの統計または挙動だけでなく、信号挙動または信
号統計のより長時間の傾向を考慮した置換データのパターンを得るように、最後
の1つの無傷のブロックのみならず数個の直前の無傷のブロックを記憶し、それ
らをまさに述べられた予測に使用することが有益であると判明するであろう。
妨害されていない、または無傷の信号またはオーディオデータストリームが、
サブグループの境界近くにある顕著な、または異常なスペクトル成分を含む場合
、サブグループ内に一様に分布しており(「ホワイト」ノイズ)、前述の方法に
より生成されたノイズは、異なるトーンレベル、すなわちサブグループの中間周
波数で体感される。この効果を避けるため、耳がそのようなトーンレベルの変化
に感応するような周波数域においては、おそらくただ1つの周波数ラインの幅の
狭いサブグループが選択されるべきである。ただ1つの周波数ラインの幅につい
て、前記方法はーパターンのスペクトル成分の振幅の二乗で計算する代わりに−
パターンのスペクトル成分が、(+1,1)から無作為に選択された数で直接乗
算されることが可能なので、より容易となる。
─────────────────────────────────────────────────────
フロントページの続き
(51)Int.Cl.7 識別記号 FI テーマコート゛(参考)
H04H 1/00 H04L 1/00 B
H04L 1/00 G10L 7/04 F
(81)指定国 EP(AT,BE,CH,DE,
DK,ES,FI,FR,GB,GR,IE,IT,L
U,MC,NL,PT,SE),CA,JP,US
(72)発明者 ジーラー マルチン
ドイツ連邦共和国 D―91207 ラウフ
ブリフェル アレ 3
(72)発明者 ブランデンブルク カールハインツ
ドイツ連邦共和国 D―91054 エアラン
ゲン ハーグシュトラーセ 32
(72)発明者 ゲルホイザー ハインツ
ドイツ連邦共和国 D―91344 ヴァイシ
ェンフェルト ザウゲンドルフ 17
Claims (1)
- 【特許請求の範囲】 1. オーディオデータストリームにおける誤りを修整するための方法であって 、下記のステップを含む: オーディオデータストリーム中の誤りの発生を検出するステップであり、誤り 発生前のオーディオデータは無傷のオーディオデータであるステップ; 無傷のオーディオデータのサブグループのスペクトルエネルギーを計算するス テップ; 無傷のオーディオデータのサブグループについて計算されたスペクトルエネル ギーに基づいて置換データのパターンを形成するステップ;および 前記パターンに基づき、サブグループに相当する誤りのまたは欠落しているオ ーディオデータについて置換データを形成するステップ。 2. オーディオデータストリームは連続的なデータブロックを含み、1つのデ ータブロックは特定のブロック持続時間に相当するオーディオデータを含み、 最後の無傷のデータブロックの各サブグループについてのスペクトルエネルギ ーは、誤りのデータブロックが発生する場合に計算され、 誤りのデータブロックの各サブグループの置換データは、最後の無傷のデータ ブロックの相当するサブグループのスペクトルエネルギーを含む、 請求項1に記載の方法。 3. オーディオデータストリームは連続的なデータブロックを含み、1つのデ ータブロックは特定のブロック持続時間に相当するオーディオデータを含み、 少なくとも2つの先行する無傷のデータブロックの相当するサブグループにつ いてのスペクトルエネルギーが、誤りのデータブロックが発生する場合に計算さ れ、 誤りのデータブロックの各サブグループの置換データは、少なくとも2つの先 行する無傷のデータブロックの相当するサブグループからの予測によって確認さ れる、請求項1に記載の方法。 4. パターンのサブグループ毎のスペクトルエネルギーは、先行する無傷のデ ータブロックの相当するサブグループのスペクトルエネルギーのパワーの1次結 合の結果を表す、先行するいずれかの請求項に記載の方法。 5. パターンのサブグループ毎のスペクトルエネルギーは、先行する無傷のデ ータブロックの相当するサブグループのスペクトルエネルギーを平均した結果を 表す、請求項1乃至3のいずれかに記載の方法。 6. パターンのサブグループ毎のスペクトルエネルギーは、先行する無傷のデ ータブロックの相当するサブグループのスペクトルエネルギーのメジアンを形成 することによって生ずる、請求項1乃至3のいずれかに記載の方法。 7. パターンのサブグループ毎のスペクトルエネルギーは、先行する無傷のデ ータブロックの相当するサブグループのスペクトルエネルギーの線形適応予測か ら生ずる、請求項1乃至3のいずれかに記載の方法。 8. 先行するいずれかの請求項に記載の方法であって、置換データの形成のス テップは、以下のステップを含む: あるサブグループ内のオーディオデータを、−1および+1の間の等分布不規 則値に設定するステップ;および サブグループの設定されたオーディオデータのスペクトルエネルギーは、無傷 のオーディオデータのサブグループについての置換データのパターンと同じであ るように、設定されたオーディオデータをスケーリングするステップ。 9. オーディオデータストリームのデータは、既に周波数ドメインに存在する 、先行する請求項のいずれかに記載の方法。 10.先行する請求項のいずれかに記載の方法であって、以下のステップがオ ーディオデータストリームにおける誤り発生の検出前に実行される: オーディオデータストリームを受信するステップ;および 少なくとも経時的に最後に受信されたオーディオデータストリームのデータを 、オーディオデータストリームにより特定された順番に記憶するステップ。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19717133 | 1997-04-23 | ||
DE19717133.8 | 1997-04-23 | ||
DE19735675.3 | 1997-08-18 | ||
DE19735675A DE19735675C2 (de) | 1997-04-23 | 1997-08-18 | Verfahren zum Verschleiern von Fehlern in einem Audiodatenstrom |
PCT/EP1998/001487 WO1998048531A1 (de) | 1997-04-23 | 1998-03-13 | Verfahren zum verschleiern von fehlern in einem audiodatenstrom |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000508440A true JP2000508440A (ja) | 2000-07-04 |
Family
ID=26036030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10544823A Withdrawn JP2000508440A (ja) | 1997-04-23 | 1998-03-13 | オーディオデータストリームにおける誤りを修整する方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6421802B1 (ja) |
EP (1) | EP0978172B1 (ja) |
JP (1) | JP2000508440A (ja) |
AT (1) | ATE196960T1 (ja) |
CA (1) | CA2276202C (ja) |
DK (1) | DK0978172T3 (ja) |
WO (1) | WO1998048531A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3570324B2 (ja) * | 2000-02-02 | 2004-09-29 | 日本電気株式会社 | 記憶装置及びそれを用いた記憶システム並びにそれらに用いるエラー発生通知方法 |
US7013267B1 (en) * | 2001-07-30 | 2006-03-14 | Cisco Technology, Inc. | Method and apparatus for reconstructing voice information |
WO2003047115A1 (en) * | 2001-11-30 | 2003-06-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Method for replacing corrupted audio data |
AU2002309146A1 (en) * | 2002-06-14 | 2003-12-31 | Nokia Corporation | Enhanced error concealment for spatial audio |
US20050229046A1 (en) * | 2002-08-02 | 2005-10-13 | Matthias Marke | Evaluation of received useful information by the detection of error concealment |
SE527669C2 (sv) * | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Förbättrad felmaskering i frekvensdomänen |
SE0303498D0 (sv) * | 2003-12-19 | 2003-12-19 | Ericsson Telefon Ab L M | Spectral loss conccalment in transform codecs |
US7356748B2 (en) * | 2003-12-19 | 2008-04-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Partial spectral loss concealment in transform codecs |
US7539870B2 (en) * | 2004-02-10 | 2009-05-26 | Microsoft Corporation | Media watermarking by biasing randomized statistics |
US7971121B1 (en) * | 2004-06-18 | 2011-06-28 | Verizon Laboratories Inc. | Systems and methods for providing distributed packet loss concealment in packet switching communications networks |
US8966551B2 (en) * | 2007-11-01 | 2015-02-24 | Cisco Technology, Inc. | Locating points of interest using references to media frames within a packet flow |
US9197857B2 (en) * | 2004-09-24 | 2015-11-24 | Cisco Technology, Inc. | IP-based stream splicing with content-specific splice points |
KR100640476B1 (ko) * | 2004-11-24 | 2006-10-30 | 삼성전자주식회사 | 비동기식 오디오 스트림 처리 방법 및 장치 |
US7936695B2 (en) | 2007-05-14 | 2011-05-03 | Cisco Technology, Inc. | Tunneling reports for real-time internet protocol media streams |
US8023419B2 (en) | 2007-05-14 | 2011-09-20 | Cisco Technology, Inc. | Remote monitoring of real-time internet protocol media streams |
US7835406B2 (en) * | 2007-06-18 | 2010-11-16 | Cisco Technology, Inc. | Surrogate stream for monitoring realtime media |
US7817546B2 (en) | 2007-07-06 | 2010-10-19 | Cisco Technology, Inc. | Quasi RTP metrics for non-RTP media flows |
US20090180531A1 (en) * | 2008-01-07 | 2009-07-16 | Radlive Ltd. | codec with plc capabilities |
EP2289065B1 (en) * | 2008-06-10 | 2011-12-07 | Dolby Laboratories Licensing Corporation | Concealing audio artifacts |
US8301982B2 (en) * | 2009-11-18 | 2012-10-30 | Cisco Technology, Inc. | RTP-based loss recovery and quality monitoring for non-IP and raw-IP MPEG transport flows |
US8819714B2 (en) | 2010-05-19 | 2014-08-26 | Cisco Technology, Inc. | Ratings and quality measurements for digital broadcast viewers |
DK2692152T3 (en) | 2011-03-30 | 2016-10-03 | Sonova Ag | WIRELESS sound delivery AND METHOD |
EP2709101B1 (en) * | 2012-09-13 | 2015-03-18 | Nxp B.V. | Digital audio processing system and method |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8304214A (nl) * | 1983-12-07 | 1985-07-01 | Philips Nv | Werkwijze voor het korrigeren van foute waarden van monsters van een equidistant bemonsterd signaal en inrichting voor het uitvoeren van de werkwijze. |
US5148487A (en) * | 1990-02-26 | 1992-09-15 | Matsushita Electric Industrial Co., Ltd. | Audio subband encoded signal decoder |
DE4111131C2 (de) * | 1991-04-06 | 2001-08-23 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen digitalisierter Tonsignale |
DE4135070C1 (ja) | 1991-10-24 | 1993-05-19 | Institut Fuer Rundfunktechnik Gmbh, 8000 Muenchen, De | |
DE4208995A1 (de) | 1992-03-20 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter mehrkanaliger Tonsignale |
FR2692091B1 (fr) * | 1992-06-03 | 1995-04-14 | France Telecom | Procédé et dispositif de dissimulation d'erreurs de transmission de signaux audio-numériques codés par transformée fréquentielle. |
DE4234015A1 (de) | 1992-10-09 | 1994-04-14 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Wiedergabe eines Audiosignals |
SE501340C2 (sv) * | 1993-06-11 | 1995-01-23 | Ericsson Telefon Ab L M | Döljande av transmissionsfel i en talavkodare |
KR960003628B1 (ko) * | 1993-12-06 | 1996-03-20 | Lg전자주식회사 | 디지탈신호의 부호화/복호화 방법 및 장치 |
US5550543A (en) * | 1994-10-14 | 1996-08-27 | Lucent Technologies Inc. | Frame erasure or packet loss compensation method |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
DE19640825C2 (de) | 1996-03-07 | 1998-07-23 | Fraunhofer Ges Forschung | Codierer zur Einbringung eines nicht hörbaren Datensignals in ein Audiosignal und Decodierer zum decodieren eines nicht hörbar in einem Audiosignal enthaltenen Datensignals |
US5907822A (en) * | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
-
1998
- 1998-03-13 EP EP98914886A patent/EP0978172B1/de not_active Expired - Lifetime
- 1998-03-13 AT AT98914886T patent/ATE196960T1/de active
- 1998-03-13 DK DK98914886T patent/DK0978172T3/da active
- 1998-03-13 CA CA002276202A patent/CA2276202C/en not_active Expired - Lifetime
- 1998-03-13 JP JP10544823A patent/JP2000508440A/ja not_active Withdrawn
- 1998-03-13 WO PCT/EP1998/001487 patent/WO1998048531A1/de active IP Right Grant
- 1998-03-13 US US09/331,697 patent/US6421802B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DK0978172T3 (da) | 2000-11-20 |
US6421802B1 (en) | 2002-07-16 |
ATE196960T1 (de) | 2000-10-15 |
EP0978172A1 (de) | 2000-02-09 |
EP0978172B1 (de) | 2000-10-11 |
CA2276202C (en) | 2000-12-19 |
WO1998048531A1 (de) | 1998-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000508440A (ja) | オーディオデータストリームにおける誤りを修整する方法 | |
US7003448B1 (en) | Method and device for error concealment in an encoded audio-signal and method and device for decoding an encoded audio signal | |
JP4579273B2 (ja) | ステレオ音響信号の処理方法と装置 | |
JP3263168B2 (ja) | 可聴音信号を符号化する方法及びデコーダ | |
Gunduzhan et al. | Linear prediction based packet loss concealment algorithm for PCM coded speech | |
CN102652337B (zh) | 用于声通信的设备和方法 | |
JP3782103B2 (ja) | アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。 | |
KR101253278B1 (ko) | 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법 | |
JP4864201B2 (ja) | 音声信号の量子化ノイズをマスクするためのシステムと方法 | |
KR20070028481A (ko) | 다중-채널 출력 신호를 발생시키기 위한 다중-채널합성장치 및 방법 | |
JP5678020B2 (ja) | オーディオストリームの段階的な適応型スクランブル | |
JP2012529243A (ja) | スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法 | |
US8867752B2 (en) | Reconstruction of multi-channel audio data | |
JP2792853B2 (ja) | オーディオ信号の伝送方法及び装置 | |
JPH0856163A (ja) | 適応的デジタルオーディオ符号化システム | |
KR20140130225A (ko) | 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어 | |
JP2012113318A (ja) | デジタルオーディオデータ復号化方法 | |
KR102284104B1 (ko) | 입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치 | |
JP4657570B2 (ja) | 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体 | |
Dubnowski et al. | Variable rate coding of speech | |
EP1933305B1 (en) | Audio encoding device and audio encoding method | |
CN112992159A (zh) | 一种lc3音频编解码方法、装置及存储介质 | |
JP2002149197A (ja) | デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置 | |
Davidson | Digital audio coding: Dolby AC-3 | |
Goodman et al. | Objective and subjective performance of tandem connections of waveform coders with an LPC vocoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031216 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20040802 |