JP2006504327A

JP2006504327A - 通信リンク間の遅延トレードオフ

Info

Publication number: JP2006504327A
Application number: JP2004546591A
Authority: JP
Inventors: ステファンブルーン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2002-10-25
Filing date: 2003-09-11
Publication date: 2006-02-02
Anticipated expiration: 2023-09-11
Also published as: ATE370568T1; CN100566230C; WO2004038992A1; ES2291746T3; CN1689264A; AU2003258944A1; JP4426454B2; DE60315689T2; US7289451B2; EP1554833A1; US20040081106A1; EP1554833B1; DE60315689D1

Abstract

本発明では、全二重通信に利用可能な遅延量が、各リンク間で、それらのアクティブ状態、現在および最近の履歴に応じて分配される。全二重通信システム内のリンクがアクティブであるか非アクティブであるか追跡すること、すなわち、転送されるデータの情報値を知ることにより、逆方向のリンクが同時に非アクティブである場合には、通常許容されるものより大きい符号化遅延を持つ符号化手順をアクティブリンクに使用することができる。ユーザの遅延に対する敏感さはリンクがアクティブになる時に最大になるので、リンクがアクティブになる瞬間には通常使用されるものより小さい符号化遅延を持つ符号化手順が割り当てられる。符号化遅延はその後増大される。好ましくは、往復遅延は要求される最大値よりも小さく保たれるように制御される。

Description

本発明は、通信ネットワークの端末間の全二重通信に関し、特に、通信システム内の遅延時間の処理に関する。

単純な電話技術から先進マルチメディア通信に至る各種通信サービスにおいて、遅延は非常に重要なパラメータである。会話型サービスは、通信リンクの終端にいるユーザ間の対話性を特徴とする。遅延、より正確には往復遅延は、対話感、ひいてはサービス品質に重要な影響を及ぼす。通信ネットワークを介して対話する通話者同士は、あたかも同じ場所にいるかのように、同じ方式で対話できる必要がある。そのため、その通信手段はできるだけ目立たないものであるべきである。往復遅延が高いと応答時間が長くなる。そのような長い応答時間はたいてい会話の流れを乱し、それが対話者によって相手側からの躊躇と解釈されることもあり、不快な対話待ち時間を生じることもある。現代の人々は極めて迅速な応答を受け取ることに慣れており、比較的短い遅延でさえもフラストレーションを生じ得る。ゆえに、往復遅延が高いと、対話性が著しく低下する。さらに、往復遅延が高すぎる場合、不十分な電気または音響エコー消去が通信品質に影響を及ぼし得る。

その一方で、伝送の観点からは、各通信リンク上では遅延は必要なものである。伝送自体の基本的な遅延のみならず、情報源符号化の高効率化と伝送不全に対処するよりよい戦略のためには、符号化遅延が必要である。符号化遅延は一般に、情報源符号化、チャネル符号化、インターリービング、符号化変調などに使用され、これによって符号化利得が向上し、伝送性能を低下させることなく送信パワーを低減することができる。本開示の場合、パケット伝送の場合のジッタバッファリングのための遅延も符号化遅延とみなす。したがって、遅延は重要であり、問題のない伝送を提供するために必要ですらある。あるリンク上の全遅延の総和が、マウスツーイヤー（mouth-to-ear）遅延とも呼ばれる終端間遅延（end-to-end delay）である。さらに、最初の伝送とその応答のそれぞれでの終端間遅延の総和が、往復遅延（round-trip delay）である。

伝送の観点からすると遅延は有益であるが、会話型サービスに許容可能なサービス品質を提供するためには、遅延は一定の限度内に保たれる必要がある。したがって、符号化遅延を用いて達成される符号化利得と、その結果生じる往復遅延による対話性の損失とでトレードオフする必要がある。

あらゆる通信サービスは、何らかの方法で符号化利得と遅延とのトレードオフを行っている。現在のＧＳＭシステムにおけるＡＭＲ電話技術サービスにおける、回線交換伝送を用いた音声通信の一例を示す。情報源符号化は25msの遅延を伴い、ＦＲ音声トラフィックチャネル上のインターリービングを含むチャネル符号化は、37.5msの遅延を伴う。これに加えて、例えば、ディジタル信号処理およびアナログ信号処理、電波バースト生成、変調および復調、無線伝送、基地局とトランスコーダの間のＡｂｉｓインタフェース上のシリアル伝送などで、一定の遅延が生じる。これらの遅延は、その音声接続の期間は固定である。

インターネットにおける電話技術サービスおける、パケット交換伝送を用いた音声通信の一例を示す。この場合、送信側でのアナログ信号入力から受信側でのアナログ出力までの終端間遅延は、他の原因を無視すると、送信側から受信側へのデータパケットの伝送時間、伝送遅延変動に対処するためのジッタバッファ、および送信側と受信側における非同期サンプルクロックを相互に整合させるサンプル同期技術によって生じる。受信側でのジッタバッファ遅延は、回線交換伝送の例におけるチャネル符号化による遅延と等価であるとみなすことができる。回線交換伝送の例とは異なり、終端間遅延は変動し得る。これらの変動は、終端間遅延を低く保ちつつパケット損失数を最小限に抑えようとする適応ジッタバッファ技術により生じる。輻輳などによる伝送条件の変化はジッタバッファサイズの調整をもたらし、その結果、終端間遅延の変動が生じる。サンプル同期には、やはりジッタバッファサイズを変更するときに適用可能な先進的な技術がいくつか存在する。これは、単純な信号サンプルの挿入または削除から時間軸操作にまで及び、目立った人為的影響を生じずに、異なる速度で信号を再生することを可能にする。

半二重通信チャネルは、一度に双方向ではなくどちらか一方向にデータを搬送することができる。これは、半二重チャネルが音声通信に使用された場合、アクティブなパートナから発せられた信号だけがパッシブなパートナに送信され、パッシブからアクティブなパートナには信号が送信されないことを意味する。そのようにして、伝送リソースは、通信パートナ間で、その現在のアクティブ状態に応じてシフトされる。半二重チャネルによる通信は、それに従って一度に１つの会話リンクだけがアクティブになる非対称特性を利用する。したがって、厳密に一度に１つという原則が満たされなければならないため、半二重チャネル上の対話性は厳しく制限される。

米国特許第６，１８２，０３２Ｂ１号では、半二重または片方向通信に適用可能な通信方法が提示されている。片方向通信ではフィードバックが存在しないため実際の遅延はあまり重要ではなく、したがって、リンクが片方向通信リンクであることが判明した場合、信号遅延を増大させることができる。そのため、符号化遅延などを変更し、ビットレートを低下させることが可能である。これにより、無線リソースに対する需要が低減され、利用可能なシステムリソースのより効率的な利用が可能になる。この方法は、ボイスメールやメッセージサービスなどで片方向通信が期待される場合、すなわち、端末（terminal）が音声データの送信機（source）または受信機（sink）のどちらかとして機能しその両方としては機能しない場合には、有用であると考えられる。しかしながら、本開示では、この解決法は全二重の状況には適用できないと判断するものである。

従来の全二重通信システムの概略的な問題は、その通信システム内の限られた利用可能なリソースの容量の範囲内で対話性とサービス品質との間でトレードオフが必要なことである。

したがって、本発明の一般的な目的は、遅延トレードオフの能力を改善する方法およびシステムを提供することである。本発明の別の目的は、遅延トレードオフのために会話型通信の非対称特性を利用する方法およびシステムを提供することである。

前述の目的は、添付の特許請求の範囲による方法およびシステムにより達成される。概略的に述べると、全二重通信に利用可能な遅延量（delay budget）は、各リンク間で、それらのアクティブ状態、現在および最近の履歴に応じて分配される。全二重通信システム内のリンクがアクティブであるか非アクティブであるかを追跡すること、すなわち、転送されるデータの情報値を知ることにより、逆方向のリンクが同時に非アクティブである場合には、通常許容されるものより大きい符号化遅延を持つ符号化手順をアクティブリンクに使用することができる。ユーザの遅延に対する敏感さはリンクがアクティブになる時に最大になるので、リンクがアクティブになる瞬間には、通常使用されるものより小さい符号化遅延を持つ符号化手順が割り当てられる。符号化遅延は、その後増大される。好ましくは、往復遅延は要求される最大値より小さく保たれるように制御される。

本発明の利点は、会話型サービスを展開するシステムにおけるサービス品質を向上させることができ、また、システム容量を向上できることである。これらの改善は、知覚される往復遅延または実際の全二重の実行可能な能力を悪化させることなく実現できる。

本発明ならびにその他の目的および利点は、以下の説明を添付の図面と併せて参照することにより十分に理解されよう。

従来のシステムでは、往復遅延を論じるとき、通常は、そのシステムが対称型である、すなわち、どちらの方向にも同じ量の情報が転送されると想定される。したがって、両通信方向を等価とみなすべきであるというのが共通の前提とされており、したがって、符号化遅延量（coding delay budget）は、両通信方向に等分に分配される。

しかしながら、異なる方向に転送されるデータの長期平均特性が概ね対称である場合であっても、全二重会話型通信におけるリンクの瞬時特性は対称ではない。実際には強い非対称性が存在する。したがって、多くの会話型サービスの重要な特性は、所定の時間に必要とされる伝送リソースは非対称であるということである。これは、会話においては普通、一方の側がアクティブである間、他方は聴いており、あるいは多人数による通信の場合には、その他の通話者が聴いているからである。このことを考慮すれば、往復遅延は時間的な変動に関連するといえる。非常に重要な瞬間は、通信方向が変わるときである。というのは、それが応答時刻と同一だからである。システムのユーザにとっては、非アクティブ状態に対応するデータ、すなわち、無視し得る情報値のデータに対応するデータが遅延され、あるいは劣悪な品質で届いても問題にはならない。

現在の技術水準における方法では、回線交換伝送であれパケット交換伝送であれ、会話型サービスで伝送される信号が、時間変化する符号化利得を有するとともに、その現在の信号の種類に応じた遅延要求を有する、という事実が見過ごされている。例えば、アクティブ音声は非アクティブ状態信号よりはるかに高い情報内容を有しており、そのため、アクティブ音声に対しては、より高い符号化遅延を要する高効率な情報源符号化やチャネル符号化が必要になる。

しかしながら、現在のモバイル音声通信システムは、情報源により制御されるレート（Source-Controlled-Rate : SCR）動作によって、会話音声は例えばアクティブ音声と無音区間を伴って時間的に変化する過程であるということを利用している。この種の動作は例えば、瞬時ビットレートを現在の入力信号のビットレート要求に適合させ、基本的に音声休止時の伝送を停止する間欠伝送（Discontinuous Transmission : DTX）モードを用いたシステムで使用される。SCR動作は非アクティブ雑音信号の高符号化遅延を伴うことがある。SCR動作は、現在の信号がアクティブ音声か無音かを検出するVAD（Voice Activity Detector）を利用する。つまりSCR動作は、音声信号はその内容に応じて時間変化するビットレートを要求することを利用している。しかし、SCR動作を用いる場合もそうでない場合も、遅延を信号に適合させることで符号化利得を制御しようとする試みはこれまで行われてこなかった。タイミングの問題が生じることになるからである。したがってこれまでの符号化はそのありうべき状態よりも効率が低いものであったといえる。

本発明の利点を明らかにするため、まずは、典型的な会話状況での従来技術の手順を図１に示す。ここでは、要求される最大往復遅延は500msであると想定する。この値は概ね適切なエコー消去を想定した大部分のシステムにおいて許容され得るものであるが、以下の例における遅延の値は、単に、カウントするためのものを提供する例にすぎない。本発明はいかなるサイズの遅延にも適用できる。この従来技術による第１の例では、利用可能な遅延は、各方向に250msずつに２等分される。

２人のユーザＵ１とＵ２とが会話している。時刻ｔ₀では、ユーザＵ１がアクティブであり話をしている。ユーザＵ１側のＴ（送信）レベルを示す網掛け部分の音声は、ユーザＵ２側のＲ（受信）レベルを示す別の網掛け部分の音声を受け取るユーザＵ２に、２５０msの遅延で伝送される。ゆえに、時刻ｔ₀にユーザＵ１によって与えられる情報は、時刻ｔ₁にＵ２によって受け取られる。ユーザＵ１は、時間ｔ₂まで話し続ける。この発話の終了は、ユーザＵ２からの応答を誘発する。この発話の終了は、通常の２５０msの遅延で、時刻ｔ₃にＵ２に提示される。ユーザＵ２は反応時間Δｔ₁の間をもって自分の応答を開始し、時刻ｔ₄には、ユーザＵ２がアクティブになり話を始める。Ｕ２の発話の開始は、時刻ｔ₅にＵ１に届く。ユーザＵ１は、合計応答時間Δｔ₂を体験し、これは、実際の反応時間Δｔ₁と両通信方向での遅延との和である。すなわち、知覚される遅延時間は以下のようになる。

Δｔ₂＝Δｔ₁＋250ms＋250ms

応答時間Δｔ₂が大きくなりすぎると会話することが困難になる。しかしながら、この応答時間は、多かれ少なかれ、一方の方向での発話の開始によってのみ知覚される。連続した音声の流れの間は、遅延に対する敏感さは一般に、はるかに小さい。

Ｕ２は話し続ける。時刻ｔ₆に、Ｕ２は、Ｕ１による割込み応答を誘発する何らかの情報を与える。この情報は時刻ｔ₇にＵ１に到達する。時刻ｔ₈にユーザＵ１によって発話が開始されるまでの反応時間はΔｔ₃である。この発話の開始は時刻ｔ₉にＵ２に到達し、合計応答時間Δｔ₄となる。上記と同様に表現するならば、以下のようになる。

Δｔ₄＝Δｔ₃＋250ms＋250ms

図１では、ほとんど常に、ユーザの少なくとも一方が非アクティブであることが容易に認められる。そのような期間中、無音を表すデータの遅延は、会話の容易さの経験には全く無関係である。多くの場合、前述のように、実際の無音信号は転送すらされず、コンフォートノイズまたはＳＩＤ（無音記述子）パラメータが送信される。本発明は、この非対称性を用いてシステムにとっての利点をもたらす。

この例と、以下の２つの例では、実際の伝送遅延が既知であると仮定する。通常、伝送遅延は一定の統計的分布を有する。その詳細については後述するが、最初の例では、説明を簡単にするために、伝送遅延は既知であって一定であるとする。

図２に、本発明の場合を示す。この第１の簡単な例では、本発明の基本的概念の理解を容易にするために、一度に１人のユーザだけが話すものと仮定する。同図の上部に、図１と同様に２人の会話するユーザのアクティブ期間の図を遅延時間および音声到着時刻と共に示す。同図の中央には、異なる方向での伝送の遅延時間を示す。Ｔ１はユーザＵ１からユーザＵ２への伝送であり、Ｔ２はユーザＵ２からユーザＵ１への伝送である。

時刻ｔ₁₀ではユーザＵ１が話し、ユーザＵ２は無音である。この音声は、同図中央の遅延方式に従い、そのユーザＵ２への符号化／復号化、転送などの間に３５０ms遅延される。このため、ユーザＵ２は時刻ｔ₁₁にその音声を知覚する。逆方向には情報値のあるデータは転送されないので、逆方向のデータの遅延時間は重要ではない。ユーザＵ１は時刻ｔ₁₂に話すのを止め、それが、３５０ms遅延されて、時刻ｔ₁₃にユーザＵ２によって認められる。ユーザＵ２は、反応時間Δｔ₅の間にこの停止に反応し、時刻ｔ₁₄に応答を送信し始める。ユーザＵ２がアクティブになると、この転送方向の遅延が重要なものになる。このため、図２中央のＴ２遅延（T2 DELAY）チャートに示すように、その発話開始には遅延の少ない転送モードが用いられる。ここでは１５０ms遅延の転送モードが用いられる。よって、時刻ｔ₁₄に生じた発話開始は、時刻ｔ₁₅にユーザＵ１に提示される。このときユーザＵ１は、以下のようにΔｔ₆の応答時間を知覚する。

Δｔ₆＝Δｔ₅＋350ms＋150ms

つまり、応答開始は、従来技術を用いた場合と全く同じ往復遅延でユーザＵ１に提示されることになる。

しかし、150ms遅延の転送は非常にリソース要求が厳しく、あるいは音質が低下する。したがって、より高遅延の転送モードへの変更が要求される。ユーザＵ１は非アクティブであり、短い期間の後、この実施形態では、時刻ｔ₁₆で、転送モードが350ms遅延のモードに向けて変化していく。この変化は時刻ｔ₁₇まで続き、遅延は漸近的にその最終値に接近する。Ｕ２側では、間隔Δｔ₇の音声がＵ１に送信されて、Δｔ₈の時間間隔内に受信される。Δｔ₈の継続期間はΔｔ₇より長いため、音声を徐々に遅延させる必要がある。この遅延は、送信側、または好ましくは、受信側で、伸長技術や、２単語間などへの短い無音間隔の挿入などによって処理される。これについては、以下でさらに詳細に説明する。この場合、ユーザＵ１は、発話の途中ではこの付加的な遅延にほとんど気付くことはない。

次に、Ｕ２からＵ１への発話は３５０msに増大した遅延で転送される。ユーザＵ２は、時刻ｔ₁₈に非アクティブになり、この非アクティブ状態が時刻ｔ₁₉にＵ１に提示される。次いでユーザＵ１は、自分の応答を準備することができる。

本発明による通信の主要部分が、増大した遅延（本例では３５０ms）の転送モードを用いて実行されることが直ちに理解されよう。同時に、発話開始往復遅延が（本例では５００msに）維持される。

この有効な付加的な遅延時間は、異なる方式でも利用することができる。図２の下部に２つの例を示す。第１の例では、増大した遅延を用いて伝送リソース要求が低減される。点線は、従来の遅延量によるリソース要求に相当する。実線は、本発明の実施形態を用いたときのリソース要求を表す。結果としてリソース要求が全体的に削減されることがわかる。時刻ｔ₁₄、すなわちユーザＵ２の応答開始時には、使用される転送モードはわずか１５０msの遅延しかなく、これは、伝送リソースが通常より高い度合いで使用されていることを意味する。しかし、この高いリソース利用が必要とされる期間は非常に短く、そのため平均のリソース利用は著しく低減される。この場合のリソース利用のピークは発話開始時に発生し、その発生時期は全期間にわたって統計的に分散しているから、多数の会話を処理する大規模なシステムでは、このピークがリソース利用をわずかに増大させることにはなる。しかしながら、その他の期間における大きな削減に比べれば、この増大は実際にはごくわずかなものにすぎない。

この有効な増大した遅延時間を利用する別の方法は音声の品質を向上させるものである。より好適な符号化を適用できるため、これによって品質を向上させることができる。これを図２の最下部に示す。図では、品質尺度が、会話型通信全体についての時間の関数として示されている。会話の平均品質が向上していることがわかる。しかしながら、リソース利用の場合と対比すると、低遅延が使用される発話開始時においては状況が異なる。すなわち、発話開始時には音声品質が低下する一方、使用される遅延が増大すると急速にそれが回復することが示されている。

この増大した有効な遅延は他の多くの方法にも利用できることは当業者には理解されよう。例えば、品質向上とリソース要求の組み合わせを考慮することが可能である。

これらの利点を達成するために払うべき代償は、全て会話で音声方向が変化する都度の２００msの遅延である。好適にはこの遅延は連続音声の中に埋もれてしまうので、ユーザはおそらく、この遅延に全く気付かないであろう。ただし、その応答時間、すなわち、発話開始時の往復時間は、悪影響のない会話を行うためには非常に重要なものであり、不変のままである。

上記の例では、会話するユーザ同士は非常に行儀がよく、相手側が話し終えるのを待ってから応答した。しかし実際の会話には、割込みや同時２方向音声なども含まれるのが通常である。上記の方法は、そのような状況でさえも性能向上を提供する。ユーザが遅延に関連する煩わしさを最も感じやすい最も重要な時は、ユーザの一方の発話開始時である。前述の解決法は、他方のユーザの発話継続中に発話開始が発生したときでさえも、その問題を解決する。しかし、発話開始後に遅延時間が増大するため、双方の話者が話し続けると実際の往復遅延が増大することになる。おそらく、これはあまり重要なものではない。というのは、会話者同士は自分自身の発話に専念しており、したがっておそらく、わずかに付加した遅延にはあまり敏感でないからである。

しかしながら、そのような応答時間の増大が許容され得ない状況も考えられよう。そのような場合とは例えば、強い暗騒音環境の下で、その暗騒音によって非アクティブ状態が誤ってアクティブ音声と判定されてしまうような場合である。しかし本発明の好ましい実施形態は、こうした状況にも対処するものである。

図３に、別の例を示す。この場合もやはり、最大５００msの合計往復遅延が想定され、150msないし350msの遅延時間を有する転送モードを用いることが可能である。

時刻ｔ₂₀で、ユーザＵ１が話している。その音声は350msの遅延で転送され、時刻ｔ₂₁にユーザＵ２に届く。ユーザＵ２に到達した情報は、そのユーザによる割込みを誘発し、ユーザＵ１がその発話を終える前に応答を開始する。応答時間Δｔ₉の後、ユーザＵ２は時刻ｔ₂₂にその応答を開始し、150msの遅延時間を使用する。その応答の開始は時刻ｔ₂₃にユーザＵ１に到達し、合計応答遅延はΔｔ₁₀になる。この遅延は、上記と同様に示すと以下のようになる。

Δｔ₁₀＝Δｔ₉＋350ms＋150ms

応答がユーザＵ２に到達すると、両通信方向とも同時にアクティブになる。したがって、ユーザＵ１の音声の転送モードは、より短い遅延、好ましくは、合計許容往復遅延の半分、すなわち250msの転送モードに変更される必要がある。ユーザＵ２の発話開始の到着の直前、すなわち時刻ｔ₂₃の直前に転送されたユーザＵ１の音声は、高遅延を伴って転送される。時間Δｔ₁₁の間、転送モードは徐々に変更されて250msの遅延に接近し、最終的にはそれが用いられる。したがって、時間Δｔ₁₁における音声は、それよりもわずかに短い時間間隔Δｔ₁₂の間にユーザＵ１に提示される。これは、ある種の音声時間圧縮または情報廃棄が行われるべきことを示唆する。これについては以下でより詳細に論じる。ここでは、ただ、何らかの音声時間圧縮が行われることだけに留意する。

ユーザＵ１からユーザＵ２への音声転送の遅延が低減されると、その逆方向は、利用可能な遅延分配のより大きい部分を使用できるようになる。したがって、Ｕ２からＵ１への転送の遅延は、好ましくは徐々に増大する。本実施形態では、この増大は、時間間隔Δｔ₁₂で行われ、これは、時刻ｔ₂₅に生成された音声が250msの転送遅延を伴うことを意味する。間隔Δｔ₁₂のＵ２の音声は、時間Δｔ₁₃の間にユーザＵ１に届く。Δｔ₁₃の継続期間はΔｔ₁₂の継続期間より長いため、音声伸長処理を適用する必要がある。これについては以下でより詳細に論じる。

時刻ｔ₂₆でＵ１の発話が終了し、Ｕ１からＵ２へのリンクが非アクティブになる。伝送遅延は250msであるため、Ｕ２に届く発話の終了は時刻ｔ₂₇に起こる。この時点で一方の方向が非アクティブであり、これは、本発明によれば、利用可能な遅延バッファの大部分がアクティブリンクによって利用され得ることを意味する。その後、時間Δｔ₁₄の間に、Ｕ２からＵ１への情報転送遅延が250msから350msに増大する。受信側では、時間Δｔ₁₅内にその音声が受け取られ、これは、この場合もやはり音声伸長処理を実行すべきことを意味する。最後に、時刻ｔ₂₈でＵ２によって生成された音声は、ユーザＵ１への転送の間に350msの遅延を伴う。

時刻ｔ₂₉で、ユーザＵ１は再びアクティブになり、このアクティブ状態の開始は時刻ｔ₃₀にユーザＵ２に到達する。このイベントは、両方向でのデータ転送遅延の動的調整を再び誘発することになる。

図３の下部には、異なる時に異なる方向で用いられる転送遅延のチャートが示されている。両ユーザが同時に話しているときには、本発明の効果の度合いは基本的には失われることがわかる。しかし、１ユーザだけが話している期間には、本発明は従来技術のシステムと比べて全般的に利点を生み出す。

上記の例から、本発明の基本原理は、実際に同時に全二重の会話が行われるときにも用いられ得ることがわかる。好ましくは、そのような場合、音声圧縮および伸長を処理する機構を用いて、厄介な損失や目立った休止を伴わずに、音声をできるだけスムーズにユーザに提示させる。

異なる方向にデータによって運ばれる情報値の判定を得ることにより、転送モード、例えば、異なる符号化遅延を有するモードの動的割り当てを実行することができる。ゆえに、符号化遅延は、伝送されるデータの内容の値の判定に依存することになる。この情報値は、データを搬送するリンクがアクティブかそれとも非アクティブかの値とすることができる。両方向の情報値を判定することにより、一方向だけがアクティブである期間を判断できる。そのような期間中には、従来から使用されているものより大きい符号化遅延を有する転送モードを利用することができる。ゆえに、アクティブリンクでの遅延は、逆方向のリンクが非アクティブであるとき、要求される最大往復遅延の半分を上回る値まで増大し得る。しかしながら、そのような改善された遅延と最大往復遅延との間の差は、応答転送によって生じる遅延を許容する必要がある。ただし、この応答転送は非常に低い符号化遅延を持ち得る。というのは、それは短期間だけしか利用されないからである。

本発明は、異なる種類の会話型システムで使用することもできる。転送される信号は、音声信号もビデオ信号も表し得る。音声信号の場合、非アクティブ状態は、例えば、無音、暗騒音および／または一定の時間不変信号であると定義することができる。ビデオの場合、非アクティブ状態は、例えば、画像なし、暗騒音および／または静止であると定義することができる。これらの「非アクティブ」状況に共通するのは、伝送データの情報値がないか、または非常に低く、その内容が受信側に影響を及ぼさないことである。

本発明は、２者を超える参加者を持つ多人数通信システム（会議など）にも適用することが可能である。この場合、通常は、１人の通話者がアクティブであり、他のすべての（非アクティブ）通話者へのリンク上で高符号化遅延を得る。アクティブな通話者の変更の場合、アクティブになろうとする通話者から前にアクティブだった（または依然としてアクティブな）通話者に送信される開始には低符号化遅延が適用される。新しいアクティブ通話者から以前に非アクティブであった通話者へのリンク上には、開始時でも高遅延が使用され得る。

上記の例では、３つの遅延レベルが適用されている。しかしながら、複数の、任意の数の遅延レベル、ならびに種々の連続または擬似連続遅延レベルに基づく解決法を適用してもよい。より多くの遅延レベルが利用可能であるほど、この方法はより効率的になり、データの圧縮／伸長がより容易になる。そのような複数の符号化遅延レベルは、好ましくは、１組の所定の符号化方式に基づくものである。

前述の解決法による実際の効果について、１つはパケット交換伝送を伴い、１つは回線交換伝送を伴う２つの別の例によって、さらに説明することができる。

このパケット交換伝送の例では、アクティブリンクとパッシブリンクの間で分配される合計遅延量が400msであると想定する。送信側から受信側へのパケット伝送遅延の所与の配分があり、説明を簡単にするために、それは両方向で同一であると想定する。典型的な遅延配分では、小さい遅延の可能性が高く、大きい遅延の可能性はゼロではないが低いと想定することができる。現状の方法では、両通信方向のジッタバッファに最大200msが割り当てられることになる。この場合、200msの時間内に到着するすべてのパケットを適正に復号化することが可能である。すべてのその後のパケットは紛失パケットとみなされることになる。この例では、遅延配分は、時間内に到着しないパケットの可能性が３％になるように想定される。

本発明による方法では、アクティブリンクに例えば350msを割り当てることができる。アクティブリンクでは、時間内にパケットを受け取らない可能性が例えば１％に低下し、品質改善をもたらす。非アクティブリンクには、２つの基本オプションがある。１つのオプションは、遅延量の中から残りの50msの遅延以下を使用するものである。これはパケット紛失率の増大をもたらすが、あまり重要でない非アクティブ信号に関連するものであるため、許容されるはずである。もう１つのオプションは、リンクが非アクティブである間は、高符号化遅延（すなわちジッタバッファ長）を維持するものである。いずれの場合も、遅くともリンクがアクティブになり始めるときに、50msの低遅延に拘束されるはずである。というのは、それがその会話での応答を搬送するからである。ジッタバッファは、発話開始を運ぶ最初のパケットを受け取り次第、それに応じて調整される。非アクティブリンクが50msに切り換わると、350msジッタバッファ中の残りの情報は、重要な情報を喪失することなく廃棄され得る。短いジッタバッファによる符号化利得の喪失を補償するために、開始には、冗長パケット伝送や、より小さいパケットでの伝送など、よりコストの高い伝送技術が適用され得る。そのような高速な開始伝送の後で、符号化遅延、すなわちバッファサイズは、好ましくは、可能な限り連続して350msのアクティブリンクの遅延まで増大するはずである。遅くともジッタバッファがその最大長に到達するときに、パケット伝送は、余分な冗長性がなく、通常サイズのパケットを持つ通常モードに戻され得る。

上記の例での解決法の効果は、通信品質の向上である。

回線交換伝送の例では、符号化に利用可能な合計遅延量は125msであると想定される。２者間通信での最新の解決法は、順方向リンクと逆方向リンクがそれぞれ、62.5msの利用可能符号化遅延を得るように、遅延量を等分に分配するはずである。25msは、例えば、情報源符号化に使用され、37.5msはインターリービングを含むチャネル符号化に使用される。さらに、アクティブリンク上の伝送は、0.5％のフレーム消去率を達成するために、出力レベルＴＸ_{lev_A-B}を必要とすると想定される。非アクティブの逆方向リンク上では、ＤＴＸがＴＸ_{lev_A-B}の１／８の平均出力レベルで使用される。本発明による解決法は、アクティブリンク上の遅延を82.5msまで増大させ、非アクティブリンク上での遅延を42.5msまで減少させることである。これは、例えば、アクティブリンク上の符号化利得が１dB増大させることができ、非アクティブリンク上の符号化利得は３dB減少する。ゆえに、アクティブリンク上の１ｄＢの低減出力と、非アクティブリンク上の３dBの増大出力を用いて同じ伝送性能が達成される。順方向と逆方向両方の通信リンクを考慮した合計伝送出力バジェットは、
（１＋1/8）＊ＴＸ_{lev_A-B}＝1.125＊ＴＸ_{lev_A-B}
から、
（１＊１０^-1/10＋1/8＊１^０3/10）＊ＴＸ_{lev_A-B}＝1.044＊ＴＸ_{lev_A-B}
に減少する。

ゆえに、この解決法は、システムに、例えば容量を増大させるのに使用できる効果を提供すると結論づけることができる。

非アクティブ状態信号により高い符号化遅延が許容できることを考慮すると、改善の度合いはいっそう高くなる（合計伝送量＝0.919＊ＴＸ_{lev_A-B}）。非アクティブ状態信号の符号化遅延は低減する必要がなく、符号化利得での損失を補償する必要がない。この場合、非アクティブリンクが、その会話での応答を運ぶ際にアクティブになろうとするときに遅延量を上回らないようにする必要がある。低符号化遅延にもかかわらずアクティブになろうとするリンクの信号開始の適正な伝送を保証するために、（一時的に）伝送出力を増大させることにより低減した符号化利得を補償することが可能である。その開始の高速伝送の後、符号化は、より高い遅延を有するより効率的な符号化に切り換わる。より高い遅延符号化への切換えは、出力信号が時間的に伸長されることを必要とする。これは、任意の最新の時間軸操作アルゴリズムに従って行われ得る。

原則として、本発明の基本的概念は、各通信方向で自律的に適用され得る。リンクがアクティブである場合、符号化遅延は、ある最大値まで増大する。リンクがアクティブになったばかりである場合、遅延は、ある下限値まで減少し、その後増大する。これらの解決法は、一度に１つのリンクだけがアクティブである限り、すなわち図２に示す例によれば、逆方向の通信とは独立に機能するはずである。その場合、一方の通信リンクでのアクティブ状態レベルだけがわかっていればよい。そのような解決法は、実際に、ユーザが遅延に対して反応する最も重要な瞬間であるアクティブ状態期間の開始時に合計要求応答時間を保つことを可能にする。しかしながら、その解決法は、両リンクが同時にアクティブであるような状況で応答時間の完全な制御を行うことはできない。その場合、両方のリンクに長い符号化遅延が適用されるため、応答時間が事前定義された最大限度を超えることになる。

この問題に対する解決策として、図３などで示すように、応答時間制御機構を適用することができる。そのような機構では、応答時間が事前定義された限界を絶対に超えないようにする。これは、まず、両通信方向でのアクティブ状態または遅延の量を判定することを必要とし、次いで、アクティブ状態での最大許容遅延を適合させることを必要とする。

１つの単純な解決法は、両リンクのアクティブ状況に基づいて必要とされる測定値を導出するものである。これは、両リンクが、アクティブ状態信号に利用可能な符号化遅延の観点から見て対称であれば、各通信端で可能である。着信リンクと発信リンクの両方が同時にアクティブであることを検出すると、合計使用符号化遅延が、各通信端で生じる符号化遅延の２倍になると想定することができる。各終端で生じる遅延は、明らかに、各終端で利用可能である。

より普遍的だが要求の厳しい方法は、現在各終端で使用されている符号化遅延に関して通信端間でサイド情報を交換するもの、あるいは、ＲＴＣＰ（ＩＥＴＦＲＦＣ１８８９）２４〜２７頁などに開示されている、実際の往復遅延測定を行うものである。

測定された合計符号化遅延が許容される符号化遅延量を超える場合、図３に関連してさらに示したように、アクティブ状態での最大許容符号化遅延が適合される必要がある。１つの単純な可能な方法は、各リンクに、符号化遅延量の半分を割り当てるものである。

本発明による一般的方法は、図４のフローチャートによって示すことができる。この手順はステップ２００で開始する。ステップ２０２で、データの全二重転送が実行される。ステップ２０４で、好ましくはアクティブ状態および非アクティブ状態の観点から、転送されるデータの情報値の判定が得られる。最後に、ステップ２０６で、この判定値を用いて適当な符号化遅延が動的に割り当てられる。少なくとも逆方向のリンクが非アクティブであるときには、リンクがアクティブであるときにより高い符号化遅延が割り当てられる。さらに、好ましくは、アクティブ状態の開始時にはより低い符号化遅延が割り当てられる。この手順はステップ２０８で終了する。

図５に、本発明による会話型サービスの全二重通信のための通信システム１の実施形態を示す。通信システム１は、そのうちの一部だけしか示していないが、いくつかのユーザ端末２０を接続するネットワーク１０を含む。ユーザ端末２０は、着信コネクション３２と発信コネクション３４を有する全二重コネクション３０によって接続される。発信コネクション３２および着信コネクション３４は共通または別個の手段として実施されうる。ユーザ端末２０は、それぞれ、発信コネクション上および着信コネクション上でデータを送信し、受信するための送受信手段２２を備える。この送受信手段２２は、端末２０が接続される個々のネットワークに必要な、例えば、全二重方式でデータを転送する手段、符号化／復号化手段などを含む。送受信手段は、着信および／または発信トラフィックの転送モードを選択するための、転送モード制御手段２６をさらに含む。これらの転送モードは、異なる符号化、バッファリングなどを含み得る。端末２０は、全二重コネクション３０でデータによって運ばれる情報値の判定のための検出器２４をさらに備える。この実施形態では、検出器２４は、発信コネクション３４および着信コネクション３２でのアクティブ状態を判定するために接続されたアクティブ状態検出手段を備える。検出器２４は、送受信手段２２の転送モード制御手段２６に接続される。転送モード制御手段２６は、本発明によれば、検出器２４の判定に従って転送モードを動的に割り当てるように構成される。この実施形態では、通信の両方のリンクがアクティブ状態レベルに関して監視され、それによって実際の応答時間制御が可能になる。

図６に、本発明によるユーザ端末２０の別の例を示す。この場合、検出器２４は、アクティブ状態に関してリンクの一方だけを監視するように構成される。そのような場合、システム内でそれ以上の情報が交換されなければ、応答時間制御は、アクティブ状態期間の開始時だけに保証される。

図７に、本発明によるユーザ端末２０のさらに別の例を示す。この場合、検出器２４は、アクティブ状態に関して発信コネクションだけを監視する。しかしながら、この実施形態では、送受信手段２２は、遅延関連情報交換のための手段２８をさらに含む。遅延関連情報交換のための手段２８は、遅延発行に関する制御信号を受け取るように構成される。例えば、相手側のユーザ端末は、特定の遅延を有するある転送モードが適用されるというメッセージを転送することができる。そのような情報は、検出器２４を介して達成される着信コネクション３２上のアクティブ状態の情報と共に、転送モード制御手段２６が発信データのために適当な遅延を選択することを可能にする。好ましくは、遅延情報交換のための手段２８は、検出器２４からの結果をも制御信号に変換し、それが相手側のユーザ端末に転送される。

図８に、本発明による端末２０の実施形態を示す。この実施形態の伝送システムは、パケット交換伝送を用いて動作するものと想定する。すなわち、通信ネットワーク１０は、この実施形態では、パケットネットワークである。さらに、図８による、または対応する機能を有する２つの端末間の通信を想定する。ユーザによって発出された着信音声（SPEECH IN）が端末２０に供給される。Ａ／Ｄ変換器４０は、着信アナログ信号を例えば８ｋＨｚなどの一定のサンプリングレート（SF_IN）でディジタル化した信号サンプルを出力する。効率のよい音声コーデックは一般にフレーム単位で機能するため、音声符号化器（ＳＰＥ）４４の前にはフレームバッファ（frame buffer）４２があり、そこで（例えば20ms長の）サンプルのフレームが収集され、次いで、それらがＳＰＥ４４により処理される。フレーム化はフレーム化クロック信号（FRAME CLK）によって制御される。ＳＰＥ４４はフレーム単位で動作し、符号化音声データを出力する。次いで、各データセットが音声フレームを表す符号化音声データがパケタイザ (packetizer) ４６に伝送され、そこでいくつかの音声データフレームが収集されて音声データパケットが形成され、パケットヘッダが付加される。次いでこのパケットは、送信チャネル５０から発信リンク３４を経て、パケットネットワーク１０を介して送信される。

このネットワークを介した伝送は、一定の遅延プロファイルによって特徴付けられ、それが各パケットを、例えば50msなど、ある最小伝送遅延を伴うある統計的遅延分布に従って遅延させる。また、伝送されるパケットのうち一定の割合のパケットは失われ、受信側の着信リンク３２には届かない。

受信側では、到着パケットが、デパケタイザ (de-packetizer) ５２に供給され、次いで、不連続のパケット入力ストリームがジッタバッファ５４に供給され、音声復号化器（ＳＰＤ）５６で復号化することのできる連続した音声データフレームのストリームに変換される。ジッタバッファ５４は、後述する出力クロック信号に応答して、音声データフレームを出力する。ＳＰＤ５６は、音声データフレームを復号化し、それに応答して、復号化音声フレームをサンプル同期器 (sample synchronizer) ５８に出力する。サンプル同期器５８は、その最も単純な形では、バッファ制御機構を備えるバッファであり、それが音声サンプルを所与のサンプリング周波数（SF_OUT）でＤ／Ａ変換器６０に出力し、次にそこでアナログ音声出力信号（SPEECH OUT）が生成される。サンプル同期器５８は、単にサンプルを挿入または廃棄することもできるし、より高度な音声圧縮または伸長処理を実行することもできる。これについては、以下でより詳細に説明する。

ジッタバッファ動作を制御する基本的な方法は２つある。１つの簡単な方法は、出力クロックを、例えば20msなど、音声コーデック・フレームレートと等しいＤ／Ａ変換器クロックSF_OUTの約数に設定するものである。これは、サンプル同期器５８が、単なるパラレル／シリアル変換器に置き換えられることを意味し、サンプル挿入も削除も不要である。送信側／受信側フレーム同期を保証するために、ジッタバッファ制御は、平均（何らかの短期平均）バッファ・フィルレベルが、一定の目標ジッタバッファ・レベルより低いか、それとも高いかに応じて、音声データ・フレームを挿入し、または廃棄する手段を備える。

ジッタバッファ制御の第２の方法は、ジッタバッファ出力クロックを操作するものである。この方法は、送信側／受信側同期が、フレーム単位ではなく、サンプル単位で行われるという利点を持つ。通常の動作では（通信方向の変更がない場合）、理想的には、ジッタバッファ出力クロックの周波数は、ＳＰＥ４４が音声データフレームを生成するのに用いるクロック周波数に対応する。しかしながら、実際には、このクロックは、受信側で、ジッタバッファ制御手段２６中に含まれるある制御機構によって得られ、その機構は、フィルレベルなどのジッタバッファ状態に基づくものである。ジッタバッファ・クロックを制御する公知の方法があり、それらは、通常、前述のジッタバッファ制御方法と同様に、ジッタバッファ５４の平均フィルレベルが一定になるようにクロックを制御するものである。

本発明の場合、平均ジッタバッファ・レベルと遅延の関係を強調することは重要である。すなわち、低い平均ジッタバッファ・レベルは低い終端間遅延に対応し、高い平均ジッタバッファ・レベルは長い遅延に対応する。平均ジッタバッファ・レベルおよび遅延が低いと、ジッタバッファ・アンダーフローの可能性が高くなるため、多くの音声フレーム消失が誘発される。平均ジッタバッファ・レベルおよび遅延が高いと、フレーム消失数の削減が可能になり、これにより受信側での音声品質が向上する。

前述の伝送システムと関連する典型的な終端間遅延の一例では、処理遅延など他の関連性の少ない原因を無視すれば、以下の主要な条件を特定することができる。
１．音声フレームバッファ：20ms
２．２音声データフレームを有するパケタイザ：20ms
３．パケタイザの出力から、そのパケットの最初の音声データフレームのジッタバッファからの出力までのパケット遅延：100msまたは300msのいずれか一方であって、
３ａ．40msの最小伝送遅延を伴う一定の遅延プロファイルによるパケット伝送遅延、
３ｂ．３音声データ・フレーム（＝60ms）または13音声データフレーム（＝260ms）のいずれか一方のジッタバッファ量（jitter buffer depth）を用いたパケット遅延変動を補償するジッタバッファおよびデパケタイザ、
を含む
４．サンプル同期バッファ：10ms

よって、終端間遅延は、ジッタバッファ量に応じて150msまたは350msである。

この端末のユーザは無音であり、別の端末からアクティブな音声が受け取られると想定する。着信リンク３２上にはアクティブ音声の伝送があり、発信リンク上には、符号化無音信号（暗騒音）の伝送だけしかない。その結果、着信伝送はできるだけ効率的でなければならず、このリンクにできるだけ多くの利用可能な符号化遅延が許容されることになる。通常、受信側ジッタバッファはこの符号化遅延を用いる。すなわちそれは、１３音声データフレーム分の量のジッタバッファを用いて機能し、送信側から受信側への終端間遅延は350msになる。この高遅延のために、受信側での再生音声品質は高い。逆方向では、ジッタバッファ量が小さい構成が使用され、150msの終端間遅延を生じる。

次に、通信方向の変更を考察する。まず、相手側が非アクティブになる。これにより、着信リンク３２上で伝送されるフレームに、符号化無音信号が含められる。送信側にＶＡＤがあるものと想定すると、対応するフレームは、対応する無音フラグでマークされる。あるいは、本実施形態で示すように、端末２０は、ＳＰＤ５６に接続されたＶＡＤまたは他のアクティブ状態検出器２４を用い、このフラグをローカルで導出することもできる。無音フラグがアクティブになると、ジッタバッファ制御手段２６への信号が生成され、ジッタバッファ量をその最小の３フレームまで低減する。その結果、終端間遅延が減少する。ジッタバッファ量の低減は、フレームを捨てることにより、あるいはジッタバッファクロックを増大させることにより達成される。増大したジッタバッファクロックは、さらに、ＳＰＤ５６に、単位時間当たりより多くの復号化無音フレームを生成させ、次いでそれがサンプル同期バッファを満たす。これにより、単純なサンプル同期手順が過剰なサンプルを廃棄することになる。廃棄されたサンプルは無音信号サンプルであるため、この信号変更はほとんど聞き取れない。

次に、この端末２０のユーザがアクティブになる。発信リンク３４は前に非アクティブであったので、受信側のジッタバッファ量は低い。ゆえに、アクティブ音声開始は、わずか150msの終端間遅延で送信される。ゆえに、結果として生じる応答時間は500msである。しかし、相手側の受信機のジッタバッファ量は低いので、フレーム消失率が増大し、結果として音声品質は低くなる。これを補償するために、音声開始伝送、すなわち無音期間後の最初のｎ個の音声フレームには、より高い伝送リソースが使用される。ｎは、例えば、１００とすることができ、時間的には２秒間に相当する。この挙動を制御する開始信号は、例えば、発信リンクでＶＡＤによって得られる音声アクティブ状態フラグから導出され得る。より高い伝送リソースは、例えば、２つではなく１つだけの音声データフレームを含むパケットを送信することによって、かつ／または各パケットを２回送信することによって使用される。１パケット当たりのフレーム数を減少させることには、それによって終端間遅延も減少するというさらなる利点がある。

相手側の受信機は、符号化器ＶＡＤによって、あるいはＳＰＤ５６に接続して用いられるローカル復号化器ＶＡＤ２４によって生成されたフラグでマークされたアクティブ音声フレームを受け取ると、ジッタバッファ量を増大させ始める。これは、ジッタバッファに（フレーム反復などにより）追加のフレームを挿入することによって、あるいはアクティブ音声フレーム・フラグを、ジッタバッファ制御手段２６が、ジッタバッファ量がその最大の１３フレームに到達するまでクロックを減少させるための信号とみなすことによって達成される。前者の場合、追加フレームは、例えば、既存のフレームの反復によって生成され得る。好ましくは、結果として生じる音声品質に影響を与えないように、雑音的な音声部分または低レベルの音声部分を伝達するフレームが反復される。後者の場合の結果として、ＳＰＤ５６は、所与の時間に、より少ない復号化音声フレームを生じることになり、次いでそれが、サンプル同期バッファ・フィルレベルを低減する。次いで、単純なサンプル同期方法は、サンプル同期バッファ・アンダーフローを回避するために、例えば、サンプル反復などによってサンプルを挿入することができる。より複雑な方法については後述する。この例では、ジッタバッファ遅延の音声変更および蓄積には２秒間を要し、これは１０％のその音声の時間変更を示唆するものである。

ゆえに、図８の実施形態は、どんな特定の往復遅延制御もせずに、非アクティブリンクの低遅延およびアクティブリンクの高遅延を生じる。

図９に、本発明による端末２０の別の類似の実施形態を示す。前の実施形態のものと同じ各部分には同じ参照番号を付し、本実施形態の動作にとって特に重要なものでない限り、それらについての詳細な説明は省略する。この実施形態の伝送システムは、図８の実施形態のものと同じであると想定する。図８の実施形態と比べた、図９の実施形態の主要な差異は、ジッタバッファ５４の前に着信リンクのアクティブ状態を判定するアクティブ状態チェック手段２４が接続され、このアクティブ状態チェック手段２４がジッタバッファ５４への直接制御コネクション６２を有することである。また、デパケタイザ５２もＳＩＤ変換器６４を備える。

着信リンクがアクティブで、発信リンクが非アクティブであると想定する。着信リンク上にはアクティブ音声の伝送があり、発信リンク上には符号化無音信号の伝送だけしかない。したがって、着信トラフィックの処理はできるだけ効率的でなければならず、このリンクにできるだけ多くの利用可能な符号化遅延が割り振られることになる。通常、受信側ジッタバッファはこの符号化遅延を使用する。すなわちそれは、１３音声データフレーム分の量の深いジッタバッファを用いて機能し、350msの終端間遅延を生じる。この高遅延のために、受信側での再生音声品質は高い。発信方向では、無音信号の終端間伝送遅延も350msである。

次に、着信リンクが非アクティブになった場合、本実施形態ではこれは全くジッタバッファ変更を生じず、ゆえに、終端間遅延の変更も生じない。

上記と異なり、両リンクが非アクティブであり、両方が深いジッタバッファを持つものと想定する。次に、着信リンクがアクティブになる。低い応答時間を得るために、最初のアクティブ音声フレームの受信により、ジッタバッファが、３フレームの低いジッタバッファ量までフラッシュされる。廃棄されたフレームは単なる無音信号フレームにすぎないため、これは、受信側での再構築信号にとって重要ではない。アクティブ音声の有無のチェックは、本実施形態では、パケット分解の直後になされ、（符号化器ＶＡＤによって生成された）アクティブ状態フラグに基づいて、または、図に示すように、復号化器ＶＡＤ２４によってローカルで行われ得る。ＶＡＤ２４は、ここでは、ジッタバッファ５４を直接フラッシュするように構成される。ジッタバッファを低いジッタバッファ量までフラッシュすることにより、ジッタバッファ遅延は、ほとんど瞬時に下限まで低減されており、その結果、アクティブ音声開始は、わずか150msの終端間遅延で送信される。ゆえに、結果として生じる応答時間は500msになる。この場合もやはり、増大したフレーム消失率は、伝送リソースの使用を増大させることにより補償され得る。ジッタバッファ量の最初のフラッシュおよび低減の後、アクティブ音声フレームを受け取ると、受信側ジッタバッファ量は、その後、再度増大し始める。これは、アクティブ音声フレーム・フラグを、ジッタバッファ制御手段が、ジッタバッファ量を再度その最大値の１３フレームまで増大させるための信号とみなすことにより達成される。前述のように、追加の音声フレームを挿入するか、サンプル同期器５８が減少した音声フレーム速度を補償する必要がある。

本実施形態は、ＤＴＸ機能も備える。これは、実際の暗騒音を送信するのではなく、コンフォートノイズ（comfort noise）フレームを時折送信することを意味する。この無音状態での実際の終端間伝送遅延は、350msさえも上回ることがある。というのは、ノイズフレームは、例えば、８フレームごとに１回（160msごとに１回）など、時折送信されるにすぎないからである。この場合の処理は、デパケタイザが、さらに、着信ＳＩＤ（無音記述子）フレームの不連続ストリームを連続無音信号フレームのシーケンスに変換するＳＩＤフレーム変換器６４を含む場合には、ＤＴＸなしの状況と同一になる。その場合、各着信ＳＩＤフレームは、20ms当たり１個のＳＩＤフレームを含む８個のＳＩＤフレームで置換される。このコンフォートノイズでは、パラメータ補間を行うことができ、それは普通、ＳＰＤのコンフォートノイズ合成として行われる。

図１０に、本発明による端末２０の別の類似の実施形態を示す。前の実施形態のものと同じ各部分には同じ参照番号を付し、本実施形態の動作にとって特に重要なものでない限り、それらについての詳細な説明は省略する。この実施形態は、ダブルトーク応答時間制御での解決法を提示する。その原理は、送信側でも音声アクティブ状態を感知し、受信信号に属するアクティブ状態フラグに加えて、送信側アクティブ状態フラグもジッタバッファ制御手段２６に伝送することである。

これは、例えば、送信側で状況を感知するように構成され、ジッタバッファ制御手段２６に接続されたＶＡＤ７０を設けることによって達成される。両方のフラグがアクティブ音声を示している場合、ジッタバッファ制御手段２６は、ジッタバッファ量を、可能なジッタバッファ量の最大と最小の間の平均、すなわち本実施形態では８フレームに導く。現在のジッタバッファ量が８フレームより低い場合、フレームが挿入され、または、個々に、ジッタバッファ・クロックが低減され、８フレームより高い場合、フレームが廃棄され、または、個々に、クロックが増大される。

また、ジッタバッファ制御手段２６は、相手側が異なるリンクでのアクティブ状態変化のための調整を開始できるように、所定の時間ジッタバッファ量の増大を延期させる手段を備えることもできる。

図１１では、類似のダブルトーク応答時間制御が、図９の、非アクティブリンクの高遅延を有するシステムに導入されている。

これまで説明した各例は、２つのリンクの間で、それぞれのアクティブ状況に応じて合計の利用可能な符号化遅延量を分配し、それによって一定の応答時間を保証できるようにするものである。しかし、一般にはこれらの方法では、所与の絶対応答時間を維持することはできない。その１つの理由は、一般に、パケット・ネットワークを介したパケット伝送遅延が不明であることにある。これまでに示した解決法は、実際の応答時間ではなく、ジッタバッファ状態に基づくものである。一定の絶対応答時間を保証するためには、実際の伝送時間を推定することが必要である。これは、例えば、一方の側Ａから他方Ｂにメッセージが送信され、Ｂ側の、おそらくジッタバッファでの受信後にそれがＡ側に返信される、往復遅延測定によってなされ得る。そのような測定は、もちろん、両方の側で行われ得る。そのような往復遅延測定に基づき、実際の応答時間が容易に導出され、最大および最小の目標ジッタバッファ量がしかるべく調整され得る。例えば、往復遅延測定により、必要とされる500msではなく600msの実際の応答時間がもたらされた場合、目標ジッタバッファ量を低減する必要がある。最小目標ジッタバッファ量が、例えば、２音声データ・フレーム（＝40ms）まで、最大の目標ジッタバッファ量が９フレーム（＝180ms）まで低減されれば、合計で100msの応答時間が節約される。

最後の実施形態は、適正なジッタバッファ制御を利用する。その基本原理について、以下で図１２のフローチャートに基づき説明する。このフローチャートは、特に指定しない限り、図１０の実施形態に対応するものである。この手順はステップ２１０で開始する。一般に、ジッタバッファ制御は、受信音声信号、およびおそらくは送信音声信号のアクティブ状態に応じて、一定の目標ジッタバッファ量が満たされるように行われる。ステップ２１２で、受信音声の任意のアクティブ状態フラグが検出される。ステップ２１４で、送信音声の任意のアクティブ状態フラグが検出される。論理への１次入力は、受信音声のアクティブ状態フラグである。ステップ２１６で、受信音声でのアクティブ状態フラグがあるかどうかチェックされる。受信信号がアクティブ音声でない場合、目標ジッタバッファ量は、ステップ２１８で最小目標ジッタバッファ量ｄ_minに設定される。図９による例など、合計遅延量が一定に保たれない場合には、目標ジッタバッファは、そうではなく、不変のままとされる。

ステップ２１６でフラグがアクティブ状態を示した場合、手順はステップ２２０に進み、そこで送信信号でのアクティブ状態フラグがあるかどうかチェックされる。送信信号がアクティブ音声でない場合、目標ジッタバッファ量は、ステップ２２２で最大目標ジッタバッファ量ｄ_maxに設定される。しかしながら、送信信号がアクティブ音声であった場合、目標ジッタバッファ量は、ステップ２２４で平均目標ジッタバッファ量（ｄ_min＋ｄ_max）／２に設定される。図８のように、応答時間制御が適用されない場合、ステップ２２２が常に選択される。

前述のように導出された目標ジッタバッファ量は、次のステップ２２６で、平均ジッタバッファ・フィルレベルと比較される。平均フィル・レベルが目標より少ない場合、追加のフレームが（反復などにより）挿入され、またはステップ２２８で、低減されたクロックレートを用いてジッタバッファ出力がクロック制御される。平均フィル・レベルが目標値以上の場合、フレームがバッファから廃棄され、またはステップ２３０で、増大されたクロック速度を用いてジッタバッファ出力がクロック制御される。代替の実施形態では、ステップ２２８が、上記の代わりに、フィル・レベルを増大させるためにフレームを挿入することを含み、ステップ２３０がフィル・レベルを低減するためにフレームを廃棄することを含む。この手順はステップ２３２で終了する。このフローチャートは開始 (START) および停止 (STOP) を持つものとして示されているが、この制御手順は実質的には連続しており、そのため、実際の流れは、通常、破線矢印に従ってステップ２１２に戻る。

受信側で前述のジッタバッファ目標の制御を配置するのが当然であることを指摘することは重要である。これが言えるのは、平均ジッタバッファ量との比較が受信側で行われる最も簡単なものだからである。しかし、音声フレーム挿入（反復など）および削除を用いて、あるいはフレームバッファの出力クロック制御を用いて、送信側で対応するクロック制御を配置することも不可能ではない。後者の場合、フレームバッファは、入力音声信号の時間軸操作を備える必要があり、それによって、音声品質を劣化させずに様々なクロックレートで音声フレームをクロック出力することが可能になる。

本発明で使用されるアクティブ状態検出器は、例えば、従来のＤＴＸ用途で使用されるのと同種のものとすることができる。ただし、送信および／または受信信号の情報内容の値を判定するいずれの種類のセンサを使用することができる。音声アクティブ状態を判定するには、例えば、3GPP TS26.094 (Rel-4、V4.0.0)、７〜１５頁に開示されたＶＡＤアルゴリズムを使用することができる。ビデオ・アクティブ状態を判定するためのアルゴリズムは、連続ビデオ・フレーム間の差異に基づくものとすればよい。低い差異は、例えば、非アクティブ状態の信号である。

前述のように、サンプル同期手段を用いて、基本的な方式で音声伸長および音声圧縮を実行することができる。音声伸長は、例えば、必要に応じてサンプルまたは完全なフレームを反復することによって実行可能である。音声圧縮は、例えば、必要に応じて音声サンプルまたはフレームを廃棄することによって実行可能である。この場合、音声品質は影響を受ける。しかし、音声伸長の度合いが限られたものであれば、音声の劣化は特に問題にはならない。時間軸操作などより複雑な方法では、音声変更がほとんど聞き取れないように復号化音声を伸長または圧縮するはずである。例えば、ジッタ遅延の音声変更および蓄積に２秒を要する場合、200msの遅延変更での時間軸操作はわずか１０％にしかならない。さらに、時間軸操作は、それがほとんど聞き取れない音声部分、例えば、雑音的な部分や、低レベルの部分で、あるいは完全なピッチ周期を反復／廃棄することによって実行することが望ましい。音声の時間軸操作の最新の方法は、Yi J. Liang、N. Farber、B. Girod による、"Adaptive playout scheduling and loss concealment for voice communication over IP networks", (IEEE Transactions on Multimedia, 2001年4月) に記載されている。

添付の特許請求の範囲によって定義される本発明の範囲を逸脱することなく、本発明にさまざまな改変および変更を加え得ることは、当業者には理解されよう。

従来技術のシステムを用いた会話を示すタイムチャートである。本発明の実施形態における会話を示すタイムチャートである。本発明の実施形態における同時音声を含む会話を示すタイムチャートである。本発明の実施形態における方法を概略的に示すフローチャートである。本発明の実施形態における通信システムを示す図である。本発明の別の実施形態におけるユーザ端末を示す図である。本発明の別の実施形態による別のユーザ端末を示す図である。非アクティブリンクに低遅延を与える、本発明によるユーザ端末の詳細な実施形態を示す図である。非アクティブリンクに高遅延を与える、本発明によるユーザ端末の別の詳細な実施形態を示す図である。非アクティブリンクに低遅延を与え、応答時間制御を備える、本発明によるユーザ端末の詳細な実施形態を示す図である。非アクティブリンクに高遅延を与え、応答時間制御を備える、本発明によるユーザ端末の詳細な実施形態を示す図である。本発明において有用なジッタバッファ制御の実施形態を示すフローチャートである。

Claims

全二重方式でデータを転送する転送ステップ（２０２）と、
前記データによって運ばれる情報値の判定を行う判定ステップ（２０４）と、
を有する全二重通信の方法であって、さらに、
前記判定に応じて符号化遅延を動的に割り当てる割当てステップ（２０６）
を有することを特徴とする方法。
前記情報値が高いほどより高い符号化遅延が割り当てられることを特徴とする請求項１に記載の方法。
より高い符号化遅延を適用するときにはより低い割当て伝送リソースで伝送するステップを更に有し、
前記伝送リソースは、
伝送出力、
伝送に使用されるビットレート、
伝送に使用されるパケット数、
割り当てられる伝送チャネル数、
のグループ中のいずれか１つであることを特徴とする請求項２に記載の方法。
前記判定は、前記データが前記データを搬送するリンク（３２、３４）のアクティブ状態に対応するか非アクティブ状態に対応するかの判定であることを特徴とする請求項２または３に記載の方法。
前記転送ステップはさらに、第１の方向（３２）にデータを転送するステップと、第２の方向（３４）にデータを転送するステップとを含み、
前記判定ステップは、前記第１の方向（３２）に転送された前記データがアクティブ状態に対応するか非アクティブに対応するかの第１の判定を行うステップをさらに含み、
前記割当てステップは、前記第１の判定に応じて、前記第１の方向（３２）での符号化遅延を動的に割り当てる
ことを特徴とする請求項４に記載の方法。
前記割当てステップは、前記第１の判定がアクティブ状態を示す場合には、前記第１の方向（３２）での前記符号化遅延を最大符号化遅延に接近するように制御するステップをさらに含むことを特徴とする請求項５に記載の方法。
前記接近が漸進的接近であることを特徴とする請求項６に記載の方法。
前記接近が、複数の所定の符号化遅延レベルを経て行われることを特徴とする請求項６に記載の方法。
前記符号化遅延レベルが、一組の所定の符号化方式に基づくものであることを特徴とする請求項８に記載の方法。
前記割当てステップは、前記第１の判定がアクティブ状態を示す期間の開始時に、前記第１の方向（３２）での前記符号化遅延を最小符号化遅延に設定するステップをさらに含むことを特徴とする請求項７に記載の方法。
より低い符号化遅延を適用するときにはより高い割当て伝送リソースで伝送するステップを更に有し、
前記伝送リソースは、
伝送出力、
伝送に使用されるビットレート、
伝送に使用されるパケット数、
割り当てられる伝送チャネル数、
のグループ中のいずれか１つであることを特徴とする請求項１０に記載の方法。
前記漸進的接近が、前記開始後の所定の時刻まで遅延されることを特徴とする請求項１０または１１に記載の方法。
前記割当てステップは、前記第１の判定が非アクティブ状態を示す場合には、前記第１の方向（３２）での前記符号化遅延を最小符号化遅延に接近するように制御するステップをさらに含むことを特徴とする請求項５から１２までのいずれかに記載の方法。
前記システムが要求される最大往復遅延を有し、
前記判定ステップは、前記第２の方向（３４）に転送された前記データがアクティブ状態に対応するか非アクティブ状態に対応するかの第２の判定を行うステップをさらに含み、
前記割当てステップは、前記第１の判定および前記第２の判定の両方に応じて、前記第１の方向（３２）での符号化遅延を動的に割り当てる
ことを特徴とする請求項５に記載の方法。
前記割当てステップは、前記第１の判定がアクティブ状態を示すとともに前記第２の判定が非アクティブ状態を示す場合には、前記第１の方向（３２）での前記符号化遅延を最大符号化遅延に接近するように制御するステップをさらに含むことを特徴とする請求項１４に記載の方法。
前記割当てステップは、前記第１の判定および第２の判定が共にアクティブ状態を示す場合には、前記第１の方向（３２）での前記符号化遅延を中間の符号化遅延に接近するように制御するステップをさらに含むことを特徴とする請求項１５に記載の方法。
前記中間の符号化遅延は、前記第１の方向（３２）での前記データ転送の合計遅延であって、それが前記要求される最大往復遅延の実質的に半分であることを特徴とする請求項１６に記載の方法。
前記割当てステップは、前記第１の判定がアクティブ状態を示す期間の開始時に、前記第１の方向（３２）での前記符号化遅延を最小符号化遅延に設定するステップをさらに含むことを特徴とする請求項１５から１７までのいずれかに記載の方法。
前記最大符号化遅延は、前記第１の方向での前記データ転送の第１の合計遅延を示し、
前記最小符号化遅延は、前記第１の方向での前記データ転送の第２の合計遅延を示し、
前記第１の合計遅延と第２の合計遅延との和が、実質的に、前記要求される最大往復遅延に等しいことを特徴とする請求項１８に記載の方法。
前記最大符号化遅延は、前記第１の方向での前記データ転送の第１の合計遅延を示し、
前記最小符号化遅延は、前記第２の方向での前記データ転送の第２の合計遅延を示し、
前記第１の合計遅延と第２の合計遅延との和が、実質的に、前記要求される最大往復遅延に等しいことを特徴とする請求項１８に記載の方法。
符号化遅延の任意の増大が所定の期間延期されることを特徴とする請求項１５から２０までのいずれかに記載の方法。
前記データは音声信号を表し、これにより、
非アクティブ状態は、
無音、
暗騒音、
一定の信号、
のうちの少なくとも１つとして定義されることを特徴とする請求項４ないし２１のいずれかに記載の方法。
前記データはビデオ信号を表し、これにより、
非アクティブ状態は、
無画像、
暗騒音、
静止、
のうちの少なくとも１つとして定義されることを特徴とする請求項４ないし２１のいずれかに記載の方法。
前記システムにおいてメッセージが送信／返信される実際の応答時間を測定するステップと、
前記実際の応答時間を前記要求される最大往復遅延と等しくするように前記最小および最大符号化遅延を適合させるステップと、
をさらに含むことを特徴とする請求項１８に記載の方法。
前記符号化遅延がジッタバッファ量に依存することを特徴とする請求項１ないし２４のいずれかに記載の方法。
前記割当てステップは、
前記測定に応じて目標ジッタバッファ・フィル・レベルを設定するステップと、
前記目標ジッタバッファ・フィル・レベルに等しい平均フィル・レベルを達成するようにジッタバッファ・クロックを調整するステップと、
をさらに含むことを特徴とする請求項２５に記載の方法。
前記割当てステップは、
前記測定に応じて目標ジッタバッファ・フィル・レベルを設定するステップと、
前記目標ジッタバッファ・フィル・レベルに等しい平均フィル・レベルを達成するようにフレームを挿入または廃棄するステップと、
をさらに含むことを特徴とする請求項２５に記載の方法。
前記全二重通信が多者間通信であることを特徴とする請求項１ないし２７のいずれかに記載の方法。
少なくとも２つの端末（２０）と、
前記少なくとも２つの端末（２０）を接続するネットワーク（１０）と、
前記少なくとも２つの端末（２０）の任意の２つの間で、全二重方式でデータを転送する転送手段（３０）と、
前記少なくとも２つの端末（２０）に設けられた符号化／復号化手段（２２）と、
を含む全二重通信システム（１）であって、
前記データによって運ばれる情報値を判定する検出手段（２４、７０）と、
前記判定に応じて、多数の値をとりうる符号化遅延に関連する符号化／復号化を動的に割り当てるように構成され、前記符号化／復号化手段（２２）の符号化遅延を制御する符号化制御手段（２６）と、
を有することを特徴とする全二重通信システム。
前記符号化遅延は、前記情報値が高いほど高いことを特徴とする請求項２９に記載の全二重通信システム。
前記転送手段は、適用される符号化遅延に応じて伝送リソースを割り当てる手段をさらに含み、
前記伝送リソースは、
伝送出力、
伝送に使用されるビットレート、
伝送に使用されるパケット数、
割り振られる伝送チャネル数
のグループ中の少なくとも１つであることを特徴とする請求項３０に記載の全二重通信システム。
前記検出手段（２４、７０）は、前記データが前記データを搬送するリンク（３２、３４）のアクティブ状態に対応するか非アクティブ状態に対応するかの判定を行う検出器であることを特徴とする請求項３０または３１に記載の全二重通信システム。
前記転送手段は、前記少なくとも２つの端末の２つの間で第１の方向にデータを転送する手段と、前記第１の方向とは逆の第２の方向にデータを転送する手段とを含み、
前記検出手段は、前記第１の方向に転送される前記データによって運ばれる前記データがアクティブ状態に対応するか非アクティブ状態に対応するかの判定を行う第１の検出器（２４）をさらに含み、
前記符号化制御手段（２６）は、前記第１の検出器（２４）からの出力に応じて符号化／復号化を動的に割り当てるように構成されている
ことを特徴とする請求項３２に記載の全二重通信システム。
前記第１の検出器（２４）は、前記端末（２０）の少なくとも１つの着信リンク（３２）に接続され、
前記符号化制御手段（２６）は、前記第１の検出器（２４）からの出力に応じて復号化を動的に割り当てるように構成されている
ことを特徴とする請求項３３に記載の全二重通信システム。
前記検出手段は、前記第２の方向に転送される前記データがアクティブ状態に対応するか非アクティブ状態に対応するかの判定を行う第２の検出器（７０）をさらに含み、
前記符号化制御手段（２６）は、前記第１の検出器（２４）と前記第２の検出器（７０）の両方からの出力に応じて、符号化／復号化を動的に割り当てるように構成されている
ことを特徴とする請求項３３または３４に記載の全二重通信システム。
前記第１の検出器（２４）が前記端末（２０）の少なくとも１つの着信リンク（３２）に接続され、
前記第２の検出器（７０）が前記端末（２０）の前記少なくとも１つの発信リンク（３４）に接続され、
前記符号化制御手段（２６）は、前記第１の検出器（２４）と前記第２の検出器（７０）の両方からの出力に応じて、復号化を動的に割り当てるように構成されている
ことを特徴とする請求項３５に記載の全二重通信システム。
前記符号化／復号化手段（２２）は、ジッタバッファ（５４）を含み、
前記符号化制御手段はジッタバッファ制御手段（２６）である
ことを特徴とする請求項３２ないし３６のいずれかに記載の全二重通信システム。
前記ジッタバッファ制御手段（２６）は、ジッタバッファ・クロックを制御するように構成されていることを特徴とする請求項３７に記載の全二重通信システム。
前記ジッタバッファ制御手段（２６）は、フレームを挿入または廃棄するように構成されていることを特徴とする請求項３７に記載の全二重通信システム。
前記データは音声信号を表し、これにより、
前記検出器（２４、７０）は、
無音、
暗騒音、
一定の信号、
のうちの少なくとも１つを感知することを特徴とする請求項３２ないし３９のいずれかに記載の全二重通信システム。
前記データはビデオ信号を表し、これにより、
前記検出器（２４、７０）は、
無画像、
暗騒音、
静止、
のうちの少なくとも１つを感知することを特徴とする請求項３２ないし３９のいずれかに記載の全二重通信システム。
前記全二重通信システムにおいてメッセージが送信／返信される実際の応答時間を測定する手段と、
前記実際の応答時間を測定する手段の出力に応答して、最小および最大符号化遅延を適合させる手段と、
さらに含むことを特徴とする請求項２９に記載の全二重通信システム。
多者間通信をサポートする手段をさらに含むことを特徴とする請求項２９ないし４２のいずれかに記載の全二重通信システム。
端末（２０）との間で、全二重方式でデータを転送する転送手段と、
発信リンク（３４）に関連付けられた符号化手段と、
着信リンク（３２）に関連付けられた復号化手段と、
を含む端末（２０）であって、
前記データによって運ばれる情報値を判定する検出手段（２４、７０）と、
前記判定に応じて、多数の値をとりうる符号化遅延に関連する符号化／復号化を動的に割り当てるように構成され、前記符号化手段と前記復号化手段の少なくとも一方を制御する符号化制御手段（２６）と、
を有することを特徴とする端末。
前記符号化制御手段（２６）は、複数の所定の符号化遅延レベルに関連付けられた符号化／復号化を動的に割り当てるように構成されていることを特徴とする請求項４４に記載の端末。
前記符号化制御手段（２６）は、一組の所定の符号化方式に基づく複数の符号化遅延レベルに関連付けられた符号化／復号化を動的に割り当てるように構成されていることを特徴とする請求項４４に記載の端末。
前記検出手段は、前記データが前記データを搬送するリンク（３２、２４）のアクティブ状態に対応するか非アクティブ状態に対応するかの判定を行う検出器（２４、７０）であることを特徴とする請求項４４ないし４６のいずれかに記載の端末。
前記検出手段は、前記着信リンク（３２）で転送される前記データによって運ばれる前記データがアクティブ状態に対応するか非アクティブ状態に対応するかの判定を行う第１の検出器（２４）をさらに含み、
前記符号化制御手段（２６）は、前記第１の検出器（２４）からの出力に応じて復号化を動的に割り当てるように構成されている
ことを特徴とする請求項４７に記載の端末。
前記検出手段は、前記発信リンク（３４）で転送される前記データがアクティブ状態に対応するか非アクティブ状態に対応するかの判定を行う第２の検出器（７０）をさらに含み、
前記符号化制御手段（２６）は、前記第１の検出器（２４）と前記第２の検出器（７０）の両方からの出力に応じて、復号化を動的に割り当てるように構成されている
ことを特徴とする請求項４８に記載の端末。
前記復号化手段（２２）は、ジッタバッファ（５４）を含み、
前記符号化制御手段はジッタバッファ制御手段（２６）である
ことを特徴とする請求項４９に記載の端末。
前記ジッタバッファ制御手段（２６）は、ジッタバッファ・クロックを制御するように構成されていることを特徴とする請求項５０に記載の端末。
前記ジッタバッファ制御手段（２６）は、フレームを挿入または廃棄するように構成されていることを特徴とする請求項５０に記載の端末。