[go: up one dir, main page]

JPH0736118B2 - セルプを使用した音声圧縮装置 - Google Patents

セルプを使用した音声圧縮装置

Info

Publication number
JPH0736118B2
JPH0736118B2 JP5130544A JP13054493A JPH0736118B2 JP H0736118 B2 JPH0736118 B2 JP H0736118B2 JP 5130544 A JP5130544 A JP 5130544A JP 13054493 A JP13054493 A JP 13054493A JP H0736118 B2 JPH0736118 B2 JP H0736118B2
Authority
JP
Japan
Prior art keywords
pitch
audible sound
frame
mode
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5130544A
Other languages
English (en)
Other versions
JPH0635500A (ja
Inventor
クーマー・スワミナザン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Co
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of JPH0635500A publication Critical patent/JPH0635500A/ja
Publication of JPH0736118B2 publication Critical patent/JPH0736118B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的にはデジタル音
声通信システムに関し、より詳しくは、サンプリングさ
れた音声データを圧縮し次に圧縮された音声データを圧
縮されない元の音声に戻す低ビット伝送速度音声コーデ
ックに関する。この種装置は、通常、コーダ/デコーダ
を短縮して「コーデック」と呼ばれる。本発明は、とく
にデジタル・セル衛星通信網に適用されるものである
が、電気通信のために音声圧縮を必要とする各種製品に
使用してすぐれた効果をあげることができる。
【0002】
【従来の技術】セル電気通信システムは、現行のアナロ
グ周波数変調(FM)形式からデジタル・システムへの
進化する過程にある。電気通信工業会(TIA)は、す
でに、全伝送速度8.0Kbpsベクトル和励振線形予
測(VSELP)音声コーダ、誤り保護用合成コード
化、微分直角位相ずれキーイング(QPSK)変調、お
よび時分割複数アクセス(TDMA)方式を使用する規
格を採用している。これによって、セル・システムの通
信許容量が3倍に増大することが期待されている。通信
許容量をさらに倍増させるために、TIAは、半伝送速
度コーデックを検討して選択する作業を開始している。
このTIAの技術アセスメントに関しては、半伝送速度
コーデックならびにその誤り保護機能がともに6.4K
bpsの全ビット伝送速度を有する必要があり、またフ
レーム・サイズは40msに制限される。コーデック
は、多様な条件下で、全伝送速度の規格に匹敵する音声
の質を確保することが期待されている。条件としては、
話し手の多様性、電話器(ハンドセット)が及ぼす影
響、バックグラウンド・ノイズの状態、チャンネルの状
態などが挙げられる。
【0003】低伝送速度音声コード化のための効率的な
コードブック励振線形予測(セルプ、CELP)技術の
例として現行のアメリカ合衆国連邦規格の4.8Kbp
sCELPコーダを挙げることができる。CELP(セ
ルプ)が、8.0Kbps近辺のビット伝送速度で良好
な音声の質を提供することは認められているが、ビット
伝送速度が4Kbpsに近づくにつれて音声の質の劣化
が起こる。この質の劣化の主な原因が「有声」音声の再
生にあることは知られている。セルプ・コーダの基本技
術は、無作為分布励振ベクトルのコードブックをサーチ
して(ピッチおよび線形予測コーデング(LPC)短期
合成フィルターでフィルタリングされた時に)入力シー
ケンスに最も近い出力シーケンスを生成するベクトルを
求めることにある。この作業を完遂するためには、コー
ドブック内のすべての候補となるベクトルをピッチおよ
びLPC合成フィルターの両方でフィルタリングして候
補となる出力シーケンスを生成し、それをさらに入力シ
ーケンスと比較しなければならない。このため、セルプ
は、きわめて計算集約的なアルゴリズムとなり、通常の
コードブックでは1024以上の入力項目を含むものと
なっている。さらに、通常は知覚の誤り加重フィルター
が使用され、これが計算の負荷をさらに増大させる要因
となる。セルプのようなきわめて複雑なアルゴリズムを
リアルタイムで実行する場合には、高速デジタル信号演
算処理装置が役立つが、それでも、低いビット伝送速度
で高い音声の質を得るという問題は残る。電気通信機器
にコーデックを組み込むためには、音声の質を8.0K
bpsデジタル・セル規格に対応したものとする必要が
ある。
【0004】
【発明が解決しようとする課題】本発明は、北米デジタ
ル・セル規格で採用されている全伝送速度コーデックの
音声の質に対応する音声の質を得ることのできるしたが
って電気通信機器に使用することのできる有声音声用の
改良されたセルプ励振分析を用いた高品質の低ビット伝
送速度音声コーデックに関する技術を提供するものであ
る。本発明は、セル・チャンネル容量を2倍に増やす電
気通信に実用可能なコーデックを提供するものである。
【0005】
【課題を解決するための手段、作用及び効果】本発明の
好ましい一実施形態にあっては、有声音声励振モデルを
用いた低ビット伝送速度コーデックが8KHzでサンプ
リングされた任意の音声データを例えば64KbpsP
CMから4.2Kbpsに圧縮し、さらに圧縮されない
元の音声に戻す。それにともなう音声の質の劣化は、ア
メリカ合衆国デジタル・セル・システムに採用されてい
るIS54規格8.0Kbps音声コーダに対応する程
度である。これは、在来のセルプ・コーダで使用されて
いるものと同じパラメーター・モデルを使用するが、定
常有声音声セグメントと非定常有声音声セグメントに対
応する2つの別々のモード(AおよびB)でこれらのパ
ラメーターを求めかつ更新することによって行なう。低
ビット伝送速度音声デコーダは、大多数のセルプ・デコ
ーダと同様なものであるが、受信したモード・ビットに
応じて2つの異なるモードで作動する点が従来のものと
違っている。合成音声の質の向上には、ピッチ事前フィ
ルタリングおよび大域事後フィルタリングがともに用い
られる。
【0006】上に述べた本発明の特定の実施形態にもと
づけば、低ビット伝送速度コーデックは、40ms音声
フレームを使用する。各音声フレームでは、半伝送速度
音声エンコーダが20msの間隔で隔てられた2つの3
0ms音声ウィンドーでLPC分析を行なう。第1のウ
ィンドーはその中心が40ms音声フレームの中央にあ
り、第2のウィンドーはその中心がフレームの端にあ
る。ピッチの2つの推定値は、LPC分析ウィンドーと
同様に中心が40msの音声フレームの中央と端にある
音声ウィンドーを用いて求められる。ピッチ推定アルゴ
リズムは、第1のピッチ分析ウィンドーに関しては後向
きと前向きの両方のピッチ・トラッキングを含むが、第
2のピッチ分析ウィンドーに関しては後向きのピッチ・
トラッキングのみしか含まない。
【0007】音声フレームは、2つのループ・ピッチ推
定値と2組(セット)の量子化フィルター係数を用いて
2つのモードに分類される。一方のモードは、有声音声
が支配的なモードであり、ゆっくり変化する声道の形状
とゆっくり変化する声帯の振動速度すなわちピッチによ
ってその特徴があたえられる。このモードは、Aモード
と呼ばれる。他方のモードは、無声音声が支配的なモー
ドであり、Bモードと呼ばれる。Aモードでは、2番目
のピッチ推定値が量子化され伝送される。これは、各サ
ブフレームでのクローズド・ループ・ピッチ推定を導く
ために用いられる。モード選択の規準には、これら2つ
のピッチ推定値、第2のLPC分析ウィンドー用の量子
化されたフィルター係数、および第1のLPC分析ウィ
ンドー用の量子化されないフィルター係数が用いられ
る。
【0008】本発明の好ましい一実施形態にあっては、
Aモードに関しては、40ms音声フレームが7つのサ
ブフレームに分割される。その内、初めの6つのサブフ
レームは長さが5.75msであり、7番目のものは長
さが5.5msである。各サブフレームでは、ピッチ・
インデックス、ピッチ利得インデックス、固定コードブ
ック・インデックス、固定コードブック利得インデック
ス、および固定コードブック利得記号が分析を用いて合
成法によって求められる。クローズド・ループ・ピッチ
・インデックスのサーチ範囲の中心は、現在の40ms
フレームの第2のピッチ分析ウィンドー、ならびに、前
の40msフレームがAモード・フレームの場合には前
の40msフレームの第2のピッチ分析ウィンドー、ま
た前の40msのフレームがBモード・フレームの場合
には前の40msフレームの最後のサブフレームのピッ
チの第2のピッチ分析ウィンドーから得られる量子化さ
れたピッチ推定値に置かれる。クローズド・ループ・ピ
ッチ・インデックスのサーチ範囲は、各サブフレーム内
の6−ビット・サーチ範囲であり、分数ならびに整数両
方のピッチの遅れを含む。クローズド・ループ・ピッチ
利得は、各サブフレーム内の3つのビットを用いてサー
チ・ループの外で量子化される。ピッチ利得量子化テー
ブルは、両モードで異なる。固定コードブックは、その
隣接ベクトルがその端の要素以外はすべてを共有する6
−ビットの声門パルス・コードブックである。これを利
用するサーチ手順が採用される。本発明の好ましい一実
施形態にあっては、固定コードブック利得が1、3、
5、7のサブフレームの4つのビットを用いまたサブフ
レーム2、4、6についての前のサブフレーム利得イン
デックスに中心を置く限定された3−ビットの範囲を用
いて量子化される。このような微分利得量子化法は、用
いられるビットからみて効率がよいばかりでなく、利得
の量子化がサーチ・ループ内で行なわれるために固定コ
ードブック・サーチ手順の複雑さを少なくする効果があ
る。最後に、上のすべてのパラメーター推定値が遅延決
定法を用いて正確化される。このようにして、各サブフ
レームで、クローズド・ループ・ピッチ・サーチ手順に
よってM個の最良の推定値が生成される。これらM個の
最良のピッチ推定値およびN個の前のサブフレームのパ
ラメーターの各々に関してMN個の最適ピッチ利得イン
デックス、固定コードブック・インデックス、固定コー
ドブック利得インデックス、および固定コードブック利
得記号が求められる。サブフレームの終わりでは、これ
らMN個の解が、規準として累積信号/ノイズ比(SN
R)を用いてL個の最良値にプルーンされる。最初のサ
ブフレームには、M=2、N=1、L=2が用いられ
る。最後のサブフレームには、M=2、N=2、L=1
が用いられる。その他のサブフレームには、M=2、N
=2、L=2が用いられる。この遅延決定法は、有声域
から無声域へまた無声域から有声域への移行時にとくに
有効である。さらに、それによって有声の領域でよりス
ムースなピッチ軌道が得られる。この遅延決定法によっ
て、各サブフレームでのクローズド・ループ・ピッチの
サーチがN倍複雑になるが、固定コードブックのサーチ
がMN倍複雑になることと比較すればはるかに好まし
い。これは、各サブフレームで固定コードブックに関し
て相関項のみをMN回計算する必要があり、エネルギー
項は1回しか計算する必要がないためである。
【0009】Bモードでは、40msの音声フレームが
各々が8msの長さをもつ5つのサブフレームに分割さ
れる。各サブフレームでは、ピッチ・インデックス、ピ
ッチ利得インデックス、固定コードブック・インデック
ス、および固定コードブック利得インデックスがクロー
ズド・ループ分析を用いて合成法によって求められる。
クローズド・ループ・ピッチ・インデックスのサーチ範
囲は、20ないし146の全範囲にまたがっている。整
数ピッチ遅延のみが用いられる。オープン・ループ・ピ
ッチの推定値は、このモードでは、無視され、使用され
ない。クローズド・ループ・ピッチ利得は、各サブフレ
ームの3つのビットを用いてサーチ・ループの外で量子
化される。ピッチ利得量子化テーブルは、2つのモード
で異なる。固定コードブックは、2つのセクションから
なる9−ビット・マルチイノベーション・コードブック
である。一方はハダマード・ベクトル和セクションであ
り、他方はジンク・パルス・セクションである。このコ
ードブックでは、これらのセクションの構造を活用し正
の利得を保証するサーチ手順が採用される。固定コード
ブック利得は、サーチ・ループの外のすべてのサブフレ
ームの4つのビットを用いて量子化される。上に述べた
ように、利得は正であることが保証されており、したが
って各固定コードブック利得インデックスに添えて記号
ビットを伝送する必要はない。最後に、上のすべてのパ
ラメーター推定値がAモードで用いたと同じ遅延決定法
を用いて正確化される。
【0010】上に述べた本発明の目的および他の目的、
特徴、および効果は、添付の図面を参照して行なう好ま
しい一実施形態についての以下の詳細な説明によってよ
り良く理解されよう。
【0011】
【実施例】図面とくに図1を参照して、同図には、本発
明にもとづく低ビット伝送速度音声コード化技術を用い
たワイヤレス通信システムの送信機のブロック線図がし
めされている。適当な電話器から来るアナログ音声は、
8KHzの速度でサンプリングされ、アナログ/デジタ
ル(A/D)コンバータ11でデジタル音声に変換さ
れ、本発明の主題をなす音声エンコーダ12へ供給され
る。コード化された音声は、例えばデジタル・セル通信
システムで必要とされる場合にはチャンネル・エンコー
ダ13によってさらにコード化され、得られるコード化
されたビット・ストリームは、変調装置14へ供給され
る。通常、位相シフト・キーング(PSK)が用いら
れ、したがって、変調装置14の出力は、デジタル/ア
ナログ(D/A)コンバータ15によってPSK信号に
変換され、さらに、この信号が無線周波数(RF)アッ
プ・コンバータ16によって増幅され周波数逓倍され、
アンテナ17から放射される。
【0012】システムへのアナログ音声信号入力は、ア
リアス防止フィルターを用いてローパス・フィルタリン
グされ8Khzでサンプリングされたものと仮定され
る。A/Dコンバータ11からのデジタル化されたサン
プルは、すべての処理に先だって下記の伝達関数をもつ
2次バイクァッド(4乘)フィルターを用いてハイパス
・フィルタリングされる。
【0013】
【数1】 ハイパス・フィルターは、入力音声信号の直流またはハ
ムによる汚染度を減じるために使用される。
【0014】図2を参照して、伝送された信号は、アン
テナ21で受信され、RFダウン・コンバータ22によ
って中間周波(IF)にヘテロダイン変換される。得ら
れたIF信号は、A/Dコンバータ23によってデジタ
ル・ビット・ストリームに変換され、得られたビット・
ストリームは、復調装置24で復調される。この時点
で、送信機でのコード化のプロセスの逆が起こる。具体
的には、デコーデングは、チャンネル・デコーダ25と
音声デコーダ26によって行なわれるが、この音声デコ
ーダも、本発明の主題をなすものである。最後に、音声
デコーダの出力は、8KHzのサンプリング速度をもつ
D/Aコンバータ27へ供給されてアナログ音声が合成
される。
【0015】図1のエンコーダ12は、図3により詳細
に示すように、可聴音周波数前処理装置31とそれに続
くブロック32を含み、このブロックで線形予測(L
P)分析と量子化が行なわれる。ブロック32の出力を
用いて、ブロック33でピッチの推定が行なわれ、ブロ
ック34でAモードかBモードかのモードが決定され
る。これについては後に詳しく説明する。ブロック34
で決定されたモードが、ブロック35での励振モデリン
グを決定し、その後に、演算処理装置36による圧縮さ
れた音声のパッキングが行なわれる。
【0016】図2のデコーダ26は、図4により詳細に
示すように、圧縮された音声ビットのアンパッキングを
行なう演算処理装置41を含む。アンパッキングされた
音声ビットは、ブロック42で励振信号の再構成に用い
られ、その後、フィルター43でピッチのプレフィルタ
リングが行なわれる。フィルター43の出力は、音声合
成フィルター44および大域ポストフィルター45でさ
らにフィルタリングされる。
【0017】図3の低ビット速度コーデックは、40m
s音声フレームを採用している。各音声フレームでは、
ブロック32で、低ビット速度エンコーダが20msの
間隔で隔てられた2つの30ms音声ウィンドーでLP
(線形予測)分析を行なう。第1のウィンドーはその中
心が40ms音声フレームの中央にあり、第2のウィン
ドーはその中心がフレームの端にある。両方のLP分析
ウィンドーの位置合わせは図5に示されている。各LP
分析ウィンドーは、ハミング・ウィンドーによって逓倍
され、その後で、LP分析の10次の自己相関法が適用
される。両方のフィルター係数の組(セット)は、15
Hzで帯域幅拡大され、線スペクトル周波数に変換され
る。この実施形態では、これら10の線スペクトル周波
数が26−ビットLSF VQ によって量子化され
る。次に、この26−ビットLSFVQ について説明
する。
【0018】両方の組(セット)の10の線スペクトル
周波数は、ブロック32で、26−ビット・マルチコー
ドブック分解ベクトル量子化素子によって量子化され
る。この26−ビットLSFベクトル量子化素子は、非
量子化線スペクトル周波数ベクトルを「有声IRS−フ
ィルタリング済み」、「無声IRS−フィルタリング済
み」、「有声非IRS−フィルタリング済み」、「無声
非IRS−フィルタリング済み」の各ベクトルに分類す
る。ここで、「IRS」とは、CCITT、ブルーブッ
ク、Rec.P.48に定められている中間基準システ
ムをさす。図7、図8は、LSFベクトル量子化のプロ
セスの概要を示したフローチャートである。各分類ごと
に1つの分解ベクトル量子化素子が用いられる。図7、
図8を参照して、「有声IRS−フィルタリング済み」
および「有声非IRS−フィルタリング済み」の類別5
1、53では、3−4−3分解ベクトル量子化素子が用
いられる。最初の3つのLSFは、機能ブロック55お
よび57で8−ビット・コードブックを使用し、次の4
つのLSFは、機能ブロック59および61で10−ビ
ット・コードブックを使用し、最後の3つのLSFは、
機能ブロック63および65で6−ビット・コードブッ
クを使用する。「無声IRS−フィルタリング済み」、
「無声非IRS−フィルタリング済み」の類別52、5
4では、3−3−3分解ベクトル量子化素子が用いられ
る。最初の3つのLSFは、機能ブロック56および5
8で7−ビット・コードブックを使用し、次の3つのL
SFは、機能ブロック60および62で8−ビット・コ
ードブックを使用し、最後の3つのLSFは、機能ブロ
ック64および66で9−ビット・コードブックを使用
する。各分解ベクトル・コードブックから、機能ブロッ
ク67、68、69、70で、エネルギー加重平均二乗
誤差規準を用いて3つの最良の候補が選ばれる。エネル
ギー加重は、各線スペクトル周波数でのスペクトル・エ
ンベロープのパワーレベルを表わす。3つの分解ベクト
ルの各々における3つの最良の候補から、各類別ごとに
合計27の組み合わせが得られる。サーチは、少なくと
も1つの組み合わせから順序を付けたLSFの1組(セ
ット)が得られるように制約される。これは、通常サー
チに課される制約としてはきわめてゆるい制約である。
これら27の組み合わせの中から、機能ブロック71
で、誤差円歪み尺度を用いて最適の組み合わせが選ばれ
る。最後に、やはり誤差円歪み尺度を用いて最適の類別
あるいは分類が求められる。量子化されたLSFは、フ
ィルター係数に変換され、さらに補間のために自己相関
遅れに変換される。
【0019】このようにして得られるLSFベクトル量
子化方式は、異なる話し手に対して有効なばかりでな
く、電話器の送信機の影響をモデリングする程度の異な
るIRSフィルタリングにも有効である。ベクトル量子
化素子のコードブックは、60の話し手の音声データベ
ースから平坦整形ならびにIRS周波数整形を用いて調
整される。これは、数人の異なる話し手および各種の電
話器に対応して安定してすぐれた性能を得られるように
するための操作である。全TIA半伝送速度データベー
スの平均ログ・スペクトル歪みは、IRSフィルタリン
グ済み音声データで約1.2dB、非IRSフィルタリ
ング済み音声データで約1.3dBである。
【0020】2つのピッチ推定値は、2つのピッチ分析
ウィンドーから求められるが、これらのウィンドーは、
線形予測分析ウィンドーと同様、20msの間隔で互い
に隔てられている。最初のピッチ分析ウィンドーの中心
は、40msフレームの端に置かれている。各ピッチ分
析ウィンドーの長さは、301サンプル分すなわち3
7.625msである。図6は、ピッチ分析ウィンドー
の位置合わせを示す。
【0021】図3のブロック33のピッチ推定値は、既
知のピッチ推定アルゴリズムを修正した形のものを用い
てピッチ分析ウィンドーから得られる。図9には、既知
のピッチ・トラッキング・アルゴリズムのフローチャー
トが示されている。このピッチ推定アルゴリズムは、組
(セット){22.0,22.5,...,114.
5}のすべての値についての計算を行なう誤差関数を用
いて機能ブロック73で当初のピッチ推定値を求める。
それに続いて、ピッチ・トラッキングによって全体の最
適ピッチ値を出す。機能ブロック74では、誤差関数お
よび以前の2つのピッチ分析ウィンドーのピッチ推定値
を用いて後向きピッチ・トラッキングが行なわれる。機
能ブロック75では、誤差関数および今後の2つのピッ
チ分析ウィンドーのピッチ推定値を用いて前向きピッチ
・トラッキングが行なわれる。後向きおよび前向きピッ
チ・トラッキングによって得られたピッチ推定値は、決
定ブロック76で比較され、出力77で全体の最適ピッ
チ値が得られる。この既知のピッチ推定アルゴリズムに
は、その前向きピッチ・トラッキングのために2つの今
後のピッチ分析ウィンドーの誤差関数が必要である、し
たがって40msの遅延が生じる。この欠点を避けるた
めに、本発明ではピッチ推定アルゴリズムに修正が施さ
れている。
【0022】図10は、図3のオープン・ループ・ピッ
チ推定ブロック33の具体的な実施例を示したものであ
る。ピッチ分析音声ウィンドー1および2がそれぞれ誤
差関数の計算331および332に入力される。これら
誤差関数計算の出力は、以前のピッチ推定値の正確化ブ
ロック333に入力され、正確化されたピッチ推定値
が、ピッチ・ウィンドー1用として後向きおよび前向き
ピッチ・トラッキング334、335へ送られる。ピッ
チ・トラッキング回路の出力は、第1の出力としてオー
プン・ループ・ピッチ1を選択するセレクタ336へ入
力される。選択されたオープン・ループ・ピッチ1は、
また、オープン・ループ・ピッチ2を出力するピッチ・
ウィンドー2用の後向きピッチ・トラッキング回路へ入
力される。
【0023】図11は、図10に示すピッチ推定回路に
よって実施される修正されたピッチ・トラッキング・ア
ルゴリズムのフローチャートである。この修正ピッチ推
定アルゴリズムには、各ピッチ分析ウィンドーに既知の
ピッチ推定アルゴリズムの場合と同じ誤差関数が採用さ
れているが、ピッチ・トラッキング方式が改変されてい
る。第1またはだ2のいずれかのピッチ分析ウィンドー
のためのピッチ・トラッキングに先立って、2つの以前
のピッチ分析ウィンドーの以前の2つのピッチ推定値
が、現行の2つのピッチ分析ウィンドーの誤差関数を用
いた後向きおよび前向きピッチ・トラッキングによって
それぞれ機能ブロック81および82で正確化される。
それに続いて、機能ブロック83で、2つの以前のピッ
チ分析ウィンドーの正確化されたピッチ推定値と誤差関
数を用いた第1のピッチ分析ウィンドーのための後向き
ピッチ・トラッキングが行なわれる。第1のピッチ分析
ウィンドーのための前向きピッチ・トラッキングは、第
2のピッチ分析ウィンドーの誤差関数を用いることだけ
に限定される。2つの推定値は、決定ブロック85で比
較され、第1のピッチ分析ウィンドーのための全体の最
良のピッチ推定値が得られる。第2のピッチ分析ウィン
ドーのためには、機能ブロック86で後向きピッチ・ト
ラッキングが行なわれ、また、第1のピッチ分析ウィン
ドーのピッチ推定値とその誤差関数が用いられる。この
第2のピッチ分析ウィンドーのためには前向きピッチ・
トラッキングは用いられず、したがって、出力87で
は、後向きピッチ推定値が全体の最良のピッチ推定値と
なる。
【0024】40msごとに、音声フレームは、図3の
ブロック34で2つのモードに分類される。一方のモー
ドは、有声音声が支配的なモードであり、ゆっくり変化
する声道の形状とゆっくり変化する声帯の振動速度すな
わちピッチによってその特徴があたえられる。このモー
ドは、Aモードと呼ばれる。他方のモードは、無声音声
が支配的なモードであり、Bモードと呼ばれる。モード
の選択は、下に挙げる入力にもとづいて行なわれる。
【0025】1.第1の線形予測分析ウィンドー用のフ
ィルター係数。このフィルター係数は、0≦i≦10で
{a1 (i)}、ただしa1 =1.0と表わされる。ベ
クトル表記法では、これは、a1 で表わされる。
【0026】2.第1の線形予測分析ウィンドー用の補
間されたフィルター係数の組(セット)。この補間され
た組(セット)は、現行の40msフレームのと自己相
関領域の前の40msフレームの第2の線形予測分析ウ
ィンドーのための量子化されたフィルター係数を補間し
て求められる。これらのフィルター係数は、0≦i≦1
0で{/a1 (i)}、ただし/a1 =1.0と表わさ
れる。ベクトル表記法では、これは、/a1 で表わされ
る。
【0027】3.前の第2のピッチ分析ウィンドーの正
確化されたピッチ推定値。これは、/P-1で表わされ
る。
【0028】4.第1のピッチ分析ウィンドーのための
ピッチ推定値。これは、P1 で表わされる。
【0029】5.第2のピッチ分析ウィンドーのための
ピッチ推定値。これは、P2 で表わされる。
【0030】最初の2つの入力を用いて、フィルター係
数{a1 (i)}と補間されたフィルター係数{/a1
(i)}の間の誤差円歪み尺度 dc (a1 ,/a1 )
が計算され、dB(デシベル)で表わされる。図12
は、図3のモード選択機構を示すブロック線図である。
線形予測ウィンドー2および前のフレームの線形予測ウ
ィンドー2用の量子化されたフィルター係数が補間子3
41に入力され、この補間子が自己相関領域での係数を
補間する。補間されたフィルター係数の組は、3つのテ
スト回路の中の第1の回路に入力される。このテスト回
路342は、誤差円歪みを用いてウィンドー1のフィル
ター係数に対してウィンドー2用の補間されたフィルタ
ー係数の組(セット)をテストする。第2のテスト回路
343は、ピッチ・ウィンドー1のピッチ推定値に対し
て前のピッチ・ウィンドー2の正確化されたピッチ推定
値のピッチ偏差テストを行なう。第3のテスト回路34
4は、ピッチ・ウィンドー1のピッチ推定値に対してピ
ッチ・ウィンドー2のピッチ推定値のピッチ偏差テスト
を行なう。これらのピッチ・テスト回路の出力は、モー
ド選択を行なうモード・セレクタ345に入力される。
【0031】図13のフローチャートに示すように、図
12のモード決定回路によって実施されるモード選択の
プロセスは、3つのステップに分れている。第1のステ
ップは、決定ブロック91で行なわれ、誤差円歪み尺度
を用いてそれが与えられた絶対閾値と比較される。閾値
を超えていれば、モードは、Bモードであると宣言され
る。すなわち、
【数2】 STEP1:IF(d(a)>dthresh)Mode=ModeB. ここで、dthreshは、前の40msフレームのモードの
関数である。前のモードがAモードであれば、dthresh
は、−6.25dBの値をとる。前のモードがBモード
であれば、dthreshは、−6.75dBの値をとる。第
2のステップは、第1のステップが失敗した場合すなわ
ち、dc (a1 ,/a1 )≦dthreshの場合にのみ決定
ブロック92で行われる。このステップでは、第1のピ
ッチ分析ウィンドー用のピッチ推定値が前のピッチ分析
ウィンドーの正確化されたピッチ推定値と比較される。
両者が充分に近い場合には、モードは、Aモードである
と宣言される。すなわち、
【数3】 ここで、fthreshは、前のモードの関数である一つの閾
値因数である。前の40msフレームのモードがAモー
ドであれば、fthreshは0.15の値をとり、それ以外
では、0.10の値をとる。第3のステップは、第2の
ステップが失敗した場合にのみ決定ブロック93で行な
われる。この第3のステップでは、第1のピッチ分析ウ
ィンドー用のオープン・ループ・ピッチ推定値が第2の
ピッチ分析ウィンドーのオープン・ループ・ピッチ推定
値と比較される。両者が充分に近い場合には、このモー
ドは、Aモードであると宣言される。すなわち、
【数4】 STEP3:IF((1−fthresh)P(1+fthresh)P)Mo
de=ModeA. ステップ2および3では、ともに同じ閾値因数fthresh
が用いられる。最後に、ステップ3のテストが失敗した
場合には、そのモードは、Bモードであると宣言され
る。モード選択のプロセスの終わりに、閾値dthreshと
fthreshが更新される。
【0032】Aモードでは、第2のピッチ推定値が各サ
ブフレームでのクローズド・ループ・ピッチ推定の作業
を管理するために用いられるので、このピッチ推定値が
量子化されて送信される。このピッチ推定値の量子化
は、均一4−ビット量子化素子を用いて行なわれる。4
0ms音声フレームは、図14に示すように7つのサブ
フレームに分割される。最初の6つのサブフレームは、
長さが5.75msで、第7番目のサブフレームは、長
さが5.5msである。各サブフレームでは、励振モデ
ル・パラメーターが分析を用いた合成法によりクローズ
ド・ループ式に求められる。これらの励振モデル・パラ
メーターは、図3のブロック35で用いられるもので、
図15に詳細に示すように、適応コードブック・インデ
ックス、適応コードブック利得、固定コードブック・イ
ンデックス、固定コードブック利得、および固定コード
ブック利得記号である。フィルター係数は、補間子35
01によって自己相関領域で補間され、補間された出力
は、4つの固定コードブック3502、3503、35
04、3505へ供給される。固定コードブック350
4、3503への他の入力は、適応コードブック350
6によって供給され、他方、固定コードブック350
4、3505への他の入力は、適応コードブック350
7によって供給される。適応コードブック3506、3
507は、各々、サブフレームおよびそれぞれの前のサ
ブフレームからの最良ならびに第2位に最良の経路のた
めの入力音声を受信する。固定コードブック3502乃
至3505の出力は、それぞれの音声合成回路3508
乃至3511へ入力される。これらの音声合成回路は、
また、補間子3501からの補間出力も受信する。回路
3508乃至3511の出力は、セレクタ3512へ供
給され、このセレクタは、信号/ノイズ比(SNR)の
尺度を用い、入力音声にもとづいてプルーニングを行な
い、最良の2つの経路を選択する。
【0033】図15に示すように、励振モデル・パラメ
ーターを導くための合成法による分析は、各サブフレー
ムの補間された短期予測子係数の組(セット)を用いて
行なわれる。各サブフレームのための励振モデル・パラ
メーターの最適の組(セット)は、各40msの終わり
でのみ決定される。励振モデル・パラメーターを導くに
あたっては、7つのサブフレームのすべてが長さ5.7
5mすなわち46サンプル分の長さであると仮定され
る。ただし、最後すなわち7番目のサブフレームに関し
ては、サブフレームの終わりで適応コードブック更新な
どの更新が行なわれ、局部短期予測子状態変数の更新
は、長さ5.5msすなわち44サンプル分の長さのサ
ブフレームに関してのみ行なわれる。
【0034】短期予測子パラメーターあるいは線形予測
フィルター・パラメーターは、サブフレームごとに補間
される。この補間は、自己相関領域で行なわれる。第2
の線形予測分析ウィンドー用の量子化されたフィルター
係数から導かれる正規化自己相関係数は、前の40ms
フレームに関しては{ρ-1(i)}で、また現行の40
msフレームに関しては{ρ2 (i)}で表わされる。
ただし、0≦i≦10、また、ρ-1(i)=ρ2 (i)
=1.0である。したがって、補間された自己相関係数
{ρ'm(i)}は、次の式で与えられる。
【0035】
【数5】 ベクトル表記法では、次の式となる。
【0036】
【数6】 ここで、νm は、サブフレームmに関する補間加重値で
ある。その後で、補間された遅れ{ρ'm(i)}は、短
期予測子フィルター係数{a'm(i)}に変換される。
【0037】このモードでは、補間加重値の選択は、音
声の質に有意の影響を及ぼす。このため、加重値の選択
は慎重に行なわなければならない。これらの補間加重値
νmは、これまで、サブフレームmに関しては実際の短
期スペクトル・エンベロープSm,j (ω)ときわめて大
きい音声データベースの全音声フレームJにまたがる補
間された短期パワー・スペクトル・エンベロープS'm,j
(ω)の間の平均二乗誤差を最小にすることによって決
定されてきた。言い換えれば、mは、次式の値を最小に
することによって求められる。
【0038】
【数7】 フレームJのサブフレームmに関する実際の自己相関係
数を{ρm,j (k)}で表わせば、定義から、次式が得
られる。
【0039】
【数8】 上の2つの式をその前の式に代入すれば、Em の値を最
小化することは次式で表わされるE'mを最小化すること
と等価であることがわかる。
【0040】
【数9】 上の式は、ベクトル表記法では、次の式で表わされる。
【0041】
【数10】 ただし、|.|は、ベクトル・ノルムを表わす。ρ'mを
上の式に代入し、νm について微分し、それをゼロにセ
ットすると、次の式が得られる。
【0042】
【数11】 ただし、Xj =ρ2,j-ρ-1,j および Ym,j =ρm,j-
1 ρ-1,j、また、<Xj,Ym,j >は、ベクトルXj と
ベクトルYm,j の間の点乘積である。きわめて大きい音
声データベースを用いて上の方法で計算したνm の値
は、最新の試聴テストでさらに微調整される。
【0043】適応コードブック・サーチのターゲットの
ベクトルtacは、s=Htac+zによって各サブフレー
ムで音声ベクトルsと関係づけられる。ここで、Hは、
第1列がサブフレームmに関する補間短期予測子{a'm
(i)}のインパルス応答を含む二乗下三角テプリッツ
行列であり、zは、そのゼロ入力応答を含むベクトルで
ある。ターゲットのベクトルtacは、音声ベクトルsか
らゼロ入力応答zを引き、ゼロ初期状態をもつ逆短期予
測子によって差をフィルタリングすることできわめて容
易に計算される。
【0044】適応コードブック3506、3507での
適応コードブック・サーチには、候補のベクトルri と
ターゲットのベクトルtacの間の距離を測るために、下
の式で与えられるスペクトル加重平均二乗誤差εi が用
いられる。
【0045】
【数12】 ここで、μi は、関連の利得であり、Wは、スペクトル
加重行列である。Wは、フィルター係数{a'm(i)j
}をもつ加重短期予測子の切頭インパルス応答から導
かれる正値の対称テプリッツ行列である。加重因数γ
は、0.8である。上の式に最適値μi を代入すると、
歪みの項は、下の式に書き換えることができる。
【0046】
【数13】 ただし、ρi は、相関項tacT Wri であり、ei は、
エネルギー項riTWriである。これらの候補のみが正
の相関をもつと考えられる。最良の候補のベクトルは、
正の相関と次式の最高値をもつものである。
【0047】
【数14】 候補のベクトルri は、異なるピッチの遅延に対応す
る。サンプル内のピッチの遅延は、4つの部分範囲で構
成される。すなわち、{20.0}、{20.5,2
0.75,21.0,21.25,...,50.2
5}、{50.50,51.0,51.5,52.0,
52.5,...,87.5}、{88.0,89,
0,90.0,91.0,...,146.0}であ
る。合計で225のピッチの遅延と対応する候補のベク
トルが存在することになる。整数遅延Lに対応する候補
のベクトルは、単に、過去の励振サンプルを収集したも
のである適応コードブックから読み出される。混合(整
数プラス分数)遅延L+fに関しては、整数遅延Lに対
応するセクションに集中した適応コードブックの部分が
分数fに対応する多位相フィルターによってフィルタリ
ングされる。1つのサブフレームに近いまたはそれ以下
の低遅延に対応する不完全な候補のベクトルは、上のJ
・キャンベル他が提案したものと同様な方法で完全なも
のにされる。多位相フィルター係数は、ハミング・ウィ
ンドー付きsinc関数から導かれる。
【0048】適応コードブック・サーチは、すべての候
補ベクトルをサーチするものではない。現行の40ms
フレームの量子化されたオープン・ループ・ピッチ推定
値P2 および前の40msフレームのそれによって6−
ビットのサーチ範囲が決定される。この6−ビットの範
囲は、第1のサブフレームに関するP' -1と第7のサブ
フレームに関するP'2にその中心がある。2から6まで
の中間のサブフレームに関しては、6−ビットのサーチ
範囲は、2つの5−ビットのサーチ範囲で構成される。
一方は、P' -1に中心があり、他方は、P'2に中心があ
る。これら2つの範囲が重なり合い、排他的でない場合
には、(P' -1+P'2)/2に中心がある単一の6−ビ
ットの範囲が用いられる。この範囲内にピッチ遅延をも
つ候補ベクトルは、6−ビット・インデックスに変換さ
れる。ゼロのインデックスは、全ゼロ適応コードブック
・ベクトルのために保留される。このインデックスは、
サーチ範囲内のすべての候補ベクトルが正の相関をもた
ない場合に選ばれる。このインデックスは、6−ビット
または64遅延サーチ範囲を63遅延サーチ範囲にトリ
ミングすることによって収容される。適応コードブック
利得は、正に制約されるが、サーチ・ループの外で求め
られ、3−ビットの量子化テーブルを用いて量子化され
る。
【0049】遅延の決定が採用されるので、適応コード
ブック・サーチによってすべてのサブフレームで2つの
最良のピッチ遅延あるいは遅れ候補が生成される。さら
に、サブフレーム2乃至6に関しては、これが現行のフ
レーム内の前のサブフレームのために導かれた励振モデ
ル・パラメーターの最良の2組(セット)によって生成
される2つの最良のターゲット・ベクトルについて繰り
返される必要がある。これによって、サーチのプロセス
の終わりに、サブフレーム1のための2つの最良の遅れ
候補と関連する2つの適応コードブック利得ならびにサ
ブフレーム2乃至6のための4つの最良の遅れ候補と関
連する4つの適応コードブック利得が得られる。これら
の各々で、固定コードブックのためのターゲット・ベク
トルは、適応コードブック・サーチに関するターゲット
から位取りされた適応コードブック・ベクトルを差し引
くことで導かれる。すなわち、tac=ta −μopt rop
t、ただし、ropt は、位取りされた適応コードブック
・ベクトル、μopt は、関連するコードブック利得であ
る。
【0050】Aモードでは、固定コードブックとして6
−ビットの声門パルス・コードブックが使用される。声
門パルス・コードブック・ベクトルは、位置、ゆがみ、
持続時間などのパラメーターによって特徴が与えられる
基本声門パルスを時間的にずらしたシーケンスとして生
成される。声門パルスは、まず、次式に示すように16
KHzのサンプリング速度で計算される。
【0051】
【数15】 上の式で、各種パラメーターの値は、T=62.5μ
s、Tp =440μs、Tn =1760μs、n0 =8
8、n1 =7、n2 =35、ng =232と仮定してあ
る。上で定義された声門パルスは、そのスペクトルの形
を平坦化するために2度微分される。次に、32タップ
の線形位相FIRフィルターを用いて低域フィルタリン
グされ、216サンプルの長さにトリミングされ、最後
に8KHzのサンプリング速度にデシメートされて、声
門パルス・コードブックが生成される。声門パルス・コ
ードブックの最終的な長さは、108サンプルである。
パラメーターAは、声門パルス・コードブックの入力項
目が0.5の入力ごとに二乗平均平方根(RMS)をも
つように調節される。図16は、最終的な声門パルスの
形状をを示したものである。コードブックは、最初の3
6の入力項目と最後の37の入力項目がゼロで、67.
7%の希薄度を示している。
【0052】声門パルス・コードブック・ベクトルは、
長さが各46サンプルのものが63存在する。各ベクト
ルは、6−ビット・インデックスにマッピングされる。
ゼロ番目のインデックスは、全ゼロ固定コードブック・
ベクトルのために保留される。このインデックスは、サ
ーチによって歪みを減少させずにむしろ増大させるベク
トルが得られた場合に割り当てられる。残りの63のイ
ンデックスは、各々63の声門パルス・コードブック・
ベクトルに割り当てられる。第1のベクトルは、コード
ブックの最初の46の入力項目で構成され、第2のベク
トルは、2番目の入力項目から始まる46の入力項目で
構成され、以下、同様な構成となる。したがって、1づ
つずらされる形で重複し、67.6%の希薄度をもつ固
定コードブックが得られることになる。さらに、ゼロで
ない要素は、コードブックの中心に置かれ、ゼロはその
末尾に置かれる。固定コードブックのこれらの属性は、
そのサーチにあたって活用される。固定コードブックの
サーチでは、ターゲットのベクトルtscと各候補固定コ
ードブック・ベクトルci の間の距離を測定するため
に、適応コードブックのサーチと同様な歪み尺度が用い
られる。この距離は、ξi =(tsc−λi ci )T W
(tsc−λi ci )で表わされる。ただし、Wは、適応
コードブック・サーチで用いられたと同じスペクトル加
重行列である。固定コードブックに関しては、利得の大
きさ|λ|は、サーチ・ループの中で量子化される。奇
数のサブフレームに関しては、利得の大きさは、4−ビ
ット量子化テーブルを用いて量子化される。偶数のサブ
フレームに関しては、量子化は、前のサブフレームの量
子化された大きさに中心を置く3−ビットの量子化の範
囲を用いて行なわれる。このように利得の大きさの量子
化に差異を付けることは、ビットに関して効率的である
ばかりでなく、サーチの中で行なわれるために複雑さを
低減させる効果がある。利得の記号も、サーチ・ループ
の中で決定される。サーチ手順の終わりに、歪みが、選
択されたコードブック・ベクトルならびにその利得とと
もにtTsc Wtsc すなわち全ゼロの固定コードブック
・ベクトルに関する歪みと比較される。この歪みのほう
が大きければ、固定コードブック・インデックスにゼロ
・インデックスが割り当てられ、全ゼロ・ベクトルが選
択された固定コードブック・ベクトルとされる。
【0053】遅延決定のために、クローズド・ループ適
応コードブック・サーチによって提供される2つの最良
の遅れ候補とそれらの対応する利得に対応する第1のサ
ブフレームでの固定コードブック・サーチには2つのタ
ーゲット・ベクトルtscが存在することになる。サブフ
レーム2乃至7に関しては、これまでに前のサブフレー
ムに関して求められた励振モデル・パラメーターの最良
の2組(セット)ならびに現行のサブフレームでの適応
コードブック・サーチによって提供される2つの最良の
遅れ候補とそれらの対応する利得に対応する4つのター
ゲット・ベクトルが存在する。したがって、固定コード
ブック・サーチは、サブフレーム1で2度、サブフレー
ム2乃至6では4度行なわれることになる。しかし、各
サブフレームでは、エネルギー項cTiWci が同じであ
るため、それに比例して複雑度が増大することはない。
サブフレーム1のための2つのサーチの各々とサブフレ
ーム2乃至7のための4つのサーチの各々で異なるのは
相関項tTsc Wci だけである。
【0054】遅延決定法によるサーチは、セルプ・コー
ダでのピッチと利得のグラフをならすのに役立つ。本発
明では、遅延決定法は、全体のコーデックの遅延が増大
しないような方法で用いられる。このため、各サブフレ
ームでは、クローズド・ループ・ピッチのサーチによっ
てM個の最良の推定値が生成される。これらM個の最良
の推定値とN個の前のサブフレームの最良のパラメータ
ーの各々について、MN個の最適ピッチ利得インデック
ス、固定コードブック・インデックス、固定コードブッ
ク利得インデックス、固定コードブック利得記号が求め
される。サブフレームの終わりで、これらMN個の解
が、累積SNR法を用いて、現行の40msのフレーム
に関する規準としてL個の最良の解にプルーンされる。
第最初のサブフレームには、M=2、N=1、L=2が
用いられる。最後のサブフレームには、M=2、N=
2、L=1が用いられる。他のすべてのサブフレームに
は、M=2、N=2、L=2が用いられる。この遅延決
定法は、有声域から無声域および無声域から有声域への
移行時にとくに有効である。この遅延決定法によって、
各サブフレームでのクローズド・ループ・ピッチのサー
チはN倍複雑になるが、固定コードブックのサーチがM
N倍複雑になることと比較すればはるかに好ましい。こ
れは、各サブフレームで固定コードブックに関して相関
項のみをMN回計算する必要があり、エネルギー項は1
回しか計算する必要がないためである。
【0055】各サブフレームに関する最適のパラメータ
ーは、追跡法を用いて40msフレームの終わりでだけ
で求められる。MN個の解からN個の解へのプルーニン
グは、この追跡を可能にするために各サブフレームごと
に記憶される。図17は、この追跡がどのように行なわ
れるかの例を示した図である。図中、太い線は、最後の
サブフレームの後で追跡法によって得られた最適の経路
を示している。
【0056】Bモードに関しては、2組(セット)の線
スペクトル周波数ベクトル量子化インデックスをともに
送信する必要はない。しかし、Bモードでは、2つのオ
ープン・ループ・ピッチ推定値は、クローズド・ループ
・ピッチの推定を導くのに用いられないのでいずれも送
信されない。Bモードでは、複雑さが増しまた短期予測
子パラメーターのビット伝送速度が高くなるが、その分
は、励振モデル・パラメーターの更新をゆっくり行なう
ことで補償される。
【0057】Bモードでは、40msの音声フレームが
5つのサブフレームに分割される。各サブフレームは、
長さが8msすなわち64サンプルの長さがある。各サ
ブフレームの励振モデル・パラメーターは、適応コード
ブック・インデックス、適応コードブック利得、固定コ
ードブック・インデックス、固定コードブック利得であ
る。固定コードブック利得記号は、それが常に正である
ために用いられない。これらのパラメーターの最良の推
定値は、各サブフレームで合成法によって分析を用いて
求められる。全体の最良の推定値は、Aモードの場合と
同様に遅延決定法を用いて40msフレームの終わりで
決定される。
【0058】短期予測子パラメーターあるいは線形予測
フィルター・パラメーターは、自己相関遅れ領域でサブ
フレームごとに補間される。前の40msフレームに関
しては、第2の線形予測分析ウィンドーのために量子化
されたフィルター係数から導かれた正規化自己相関の遅
れは{ρ'1(i)}で表わされる。現行の40msフレ
ームに関しては、第1および第2の線形予測ウィンドー
のための対応する遅れは、それぞれ、{ρ1 (i)}お
よび{ρ2 (i)}で表わされる。正規化によって、ρ
1 (0)=ρ1 (0)=ρ2 (0)=1.0が確保され
る。補間された自己相関の遅れ{ρ'm(0)}は、次式
で与えられる。
【0059】
【数16】 ここで、αm およびβm は、ともにサブフレームmに関
する補間加重値である。補間の遅れ{ρ'm(i)}は、
その後で短期予測子フィルター係数{α'm(i)}に変
換される。
【0060】補間加重値の選択は、このモードでは、A
モードの場合ほど決定的に重要ではない。それでも、こ
れらの値は、Aモードの場合と同じ客観的規準を用い、
注意深くしかしインフォーマルな試聴テストによって微
調整して決定される。客観的規準Em を最小化するαm
およびβm の値は、次式で与えることができる。
【0061】
【数17】 ただし、
【数18】 前と同じように、ρ-1,jは、フレームJ-1の第2の線形
予測分析ウィンドーの量子化されたフィルター係数から
導かれる自己相関遅れベクトルを表わし、ρ1,j は、フ
レームJの第1の線形予測分析ウィンドーの量子化され
たフィルター係数から導かれる自己相関遅れベクトルを
表わし、ρ2,j は、フレームJの第2の線形予測分析ウ
ィンドーの量子化されたフィルター係数から導かれる自
己相関遅れベクトルを表わし、ρm,j は、フレームJの
サブフレームmの音声サンプルから導かれる実際の自己
相関遅れベクトルを表わす。
【0062】固定コードブックは、2つのセクションか
らなる9−ビット・マルチイノベーション・コードブッ
クである。一方は、ハダマード・ベクトル和セクション
であり、他方は、シングル・パルス・セクションであ
る。このコードブックでは、これらのセクションの構造
を活用し正の利得を保証するサーチ手順が採用される。
この特別のコードブックおよび関連のサーチ手順は、D
・リンの「確定論的マルチコードブック・イノベーショ
ンを用いた超高速セルプ・コーデング」ICASSP1
992、I317−320に示されているものである。
【0063】マルチイノベーション・コードブックの一
つの構成要素は、ハダマード行列Hm から構築される確
定論的ベクトル和コードである。本発明で用いられるベ
クトル和コードのコード・ベクトルは、次式で表わされ
る。
【0064】
【数19】 ただし、基本ベクトル υm (n)は、ハダマード−シ
ルベスターの行列の行およびθ=±1から得られる。こ
れらの基本ベクトルは、ハダマードの行列のシーケンシ
ー分割にもとづいて選択される。ハダマードのベクトル
和コードブックのコード・ベクトルは、値と2進値コー
ド・シーケンスである。前に検討した代数的コードと比
較すると、ハダマードのベクトル和コードは、より理想
的な周波数および位相特性をもつように構成されてい
る。これは、本発明で採用されているハダマード行列の
ための基本ベクトル分割方式によるものであり、それ
は、シーケンシーに順序づけられたハダマード行列の行
ベクトルの一様なサンプリングと解釈してよいであろ
う。これに比して、一様でないサンプリング法では、そ
れより劣る結果が得られている。
【0065】マルチイノベーション・コードブックの第
2の構成要素は、時間のずれたデルタ・インパルスなら
びに離散的sincおよびcosc関数から構築された
より一般的な励振パルスの形で構成されるシングル・パ
ルス・シーケンスである。一般化されたパルスの形状は
次式で定義される。すなわち、
【数20】 z1(n)=Asinc(n)+Bcosc(n+1), および
【数21】 z1(n)=Asinc(n)+Bcosc(n+1), ただし、
【数22】 および
【数23】 sincおよびcosc関数が時間的に位置合わせされ
る場合には、これらの関数は、ジンク・ベースの関数z
0 (n) として知られているものに対応する。インフ
ォーマルな試聴テストでは、時間的にずらされたパルス
の形状によって合成音声の声の質が改善されることが示
されている。
【0066】固定コードブック利得は、すべてのサブフ
レームで、4つのビットを用いてサーチ・ループの外で
量子化される。前に指摘したように、この利得は、正で
あることが保証されており、したがって、各固定コード
ブック利得インデックスとともに記号ビットを送信する
必要はない。遅延決定のために、サブフレーム1には2
組(セット)の最適固定コードブック・インデックス
が、またサブフレーム2乃至5には4組(セット)の最
適固定コードブック・インデックスが存在する。
【0067】Bモードでの遅延決定法は、Aモードで用
いられるものと同一である。同じ追跡手順を用いて、4
0msのフレームの終わりに各サブフレームのための最
適のパラメーターが決定される。
【0068】図18に示す音声デコーダ46(図4)
は、図20の音声エンコーダから出力されたと同じ圧縮
された音声ビットストリームを受信する。パラメーター
は、受信したモード・ビット(第1の圧縮されたワード
のMSB)が0(Aモード)であるかまたは1(Bモー
ド)を判別した後にアンパックされる。次に、これらの
パラメーターを用いて音声が合成される。さらに、音声
デコーダは、チャンネル・デコーダ45(図1)から巡
回冗長検査(CRC)による不良フレーム標識を受信す
る。この不良フレーム標識フラッグは、デコーダの不良
フレーム誤りマスキングおよび誤り回復セクション(図
示せず)のためのトリガとして用いられる。また、これ
らのトリガとして、組込み式の誤り検出方式を用いるこ
ともできる。
【0069】図11を参照して、Aモードに関しては、
量子化されたフィルター係数の再構成のために線形スペ
クトル周波数ベクトル量子化インデックスの第2の組
(セット)を用いて固定コードブック101のアドレス
指定を行なう。位取り乗算器102へ入力された固定コ
ードブック利得は、量子化されたフィルター係数を補間
のために自己相関の遅れに変換する。各サブフレーム
で、この自己相関の遅れが補間され、短期予測子係数に
変換される。乗算器102からのオープン・ループ量子
化ピッチ推定値および乗算器104からのクローズド・
ループ・ピッチ・インデックスを用いて、各サブフレー
ムで絶対ピッチ遅延値が求められる。適応コードブック
103からの対応するベクトルが、位取り乗算器104
内のその利得によって位取りされ、加算器105によっ
て位取りされた固定コードブック・ベクトルと加算さ
れ、各サブフレームの励振ベクトルが生成される。この
励振信号は、点線106で示すクローズド・ループ制御
装置で適応コードブック103のアドレス指定に用いら
れる。この励振信号は、また、I・A・ガーソンおよび
M・A・ジャスイク(上記)が記しているように、補間
されたフィルター係数をもつ短期予測子を用いた音声合
成に先立って、フィルター107でピッチがプレフィル
タリングされる。ピッチ・フィルター107の出力は、
合成フィルター108でさらにフィルタリングされ、得
られた合成音声は、大域ポールゼロ後置フィルター10
9ならにびにその後のスペクトル・ティルト補正単極フ
ィルター(図示せず)を用いて質が高められる。最後の
ステップでは、ポストフィルタリングされた音声のエネ
ルギー正規化が行なわれる。
【0070】Bモードに関しては、自己相関の遅れの第
1および第2の組(セット)の両方を再構成するために
線形スペクトル周波数ベクトル量子化インデックスの両
方の組(セット)が用いられる。各サブフレームでは、
自己相関の遅れが補間され、短期予測子係数に変換され
る。各サブフレームの励振ベクトルは、単にコードブッ
ク103からの位取りされた適応コードブック・ベクト
ルとコードブック101からの位取りされた適応コード
ブック・ベクトルとして再構成される。励振信号は、A
モードの場合と同様、補間されたフィルター係数をもつ
短期予測子を用いた音声合成に先立って、フィルター1
07でピッチがプレフィルタリングされる。得られた合
成音声は、大域ポールゼロ後置フィルター109を用い
て質が高められ、その後で、ポストフィルタリングされ
た音声のエネルギー正規化が行なわれる。
【0071】デコーダには、限定された組込み式誤り検
出機能が組み込まれる。さらに、チャンネル・デコーダ
45(図4)から不良フレーム標識フラッグの形で外部
誤り探知を行なうこともできる。誤りが検出された場合
には、異なるパラメーターに関して異なる誤り補正方式
が用いられる。モード・ビットが最も感応性の高いビッ
トであることは明らかであり、そのため、このビット
は、CRC保護を受ける最も知覚的に有意なビットに含
まれており、また、最大のイミュニティーを得るために
半伝送速度とコンボリューショナルなコーダの末尾のビ
ットの次の位置が与えられる。さらに、パラメーター
は、モード・ビットに誤りがある場合にはLSF VQ
インデックスの第2の組(セット)といくつかのコー
ドブック利得インデックスが救済されるような方法で圧
縮ビットストリームの中にパックされる。モード・ビッ
トが誤っている場合には、不良フレーム標識フラッグが
セットされ、その結果すべての誤り補正機構の活動がト
リガされ、徐々にミューティングが起きる。短期予測子
パラメーターのための組込み式誤り検出方式には、誤り
が存在しない場合には受信したLSFが順序づけられる
という事実が活用される。誤り補正方式では、受信した
第1の組(セット)のLSFに誤りがある場合には補間
法が、また、第2の組(セット)または両方の組(セッ
ト)のLSFに誤りがある場合には反復法が用いられ
る。各サブフレーム内では、ピッチ遅延またはコードブ
ック利得に誤りがある場合の誤り軽減方式には、前のサ
ブフレームの値の反復とその後の利得の減衰が用いられ
る。組込み式誤り検出機能は、固定コードブック利得に
関してのみ存在し、それには、その大きさがサブフレー
ムによって一方の極端な値から他方の極端な値に大きく
揺れることがほとんどないという事実が活用される。最
後に、各サブフレームのポストフィルタリングされた音
声のエネルギーがある固定された閾値をけっして超える
ことがないようにするためのチェック機能として、後置
フィルターの直後にエネルギーを用いた誤り探知が行な
われる。
【0072】以上、本発明を好ましい一実施形態によっ
て説明してきたが、当該技術分野に熟達した人には、本
発明は、添付の特許請求の範囲の精神および範囲を逸脱
することなく修正して実施し得ることが理解されよう。
【図面の簡単な説明】
【図1】本発明にもとづく低ビット伝送速度音声コード
化技術を用いたワイヤレス通信システムの送信機のブロ
ック線図である。
【図2】本発明にもとづく低ビット伝送速度音声コード
化技術を用いたワイヤレス通信システムの受信機のブロ
ック線図である。
【図3】図1に示す送信機に用いられるエンコーダのブ
ロック線図である。
【図4】図2に示す送信機に用いられるデコーダのブロ
ック線図である。
【図5】本発明を実施する場合の線形予測分析ウィンド
ーの位置合わせを示すタイミング線図である。
【図6】本発明を実施する場合のオープン・ループ・ピ
ッチ予測用ピッチ予測分析ウィンドーの位置合わせを示
すタイミング線図である。
【図7】本発明の26−ビット線スペクトル周波数ベク
トル量子化のプロセスを示すフローチャートの分図であ
る。
【図8】本発明の26−ビット線スペクトル周波数ベク
トル量子化のプロセスを示すフローチャートの分図であ
る。
【図9】既知のピッチ・トラッキング・アルゴリズムの
進行を示すフローチャートである。
【図10】図3に示すエンコーダのオープン・ループ・
ピッチ予測の実施をより詳細に示すブロック線図であ
る。
【図11】図10に示すオープン・ループ・ピッチ予測
によって実施される修正ピッチ・トラッキング・アルゴ
リズムの進行を示すフローチャートである。
【図12】図3に示すエンコーダのモード決定の実施を
より詳細に示すブロック線図である。
【図13】図12に示すモード決定回路によって実施さ
れるモード選択手順を示すフローチャートである。
【図14】Aモードにおけるサブフレームの構造を示す
タイミング線図である。
【図15】図3に示すエンコーダの励振モデリング回路
の動作をより詳細に示すブロック線図である。
【図16】声門パルスの形状を示すグラフである。
【図17】Aモードでの遅延決定後の追跡の例を示すタ
イミング線図である。
【図18】本発明にもとづく音声デコーダの動作を示す
ブロック線図である。
【符号の説明】
11…アナログ/デジタル(A/D)コンバータ 12…音声エンコーダ 13…チャンネル・エンコーダ 14…変調装置 15…デジタル/アナログ(D/A)コンバータ 16…無線周波数(RF)アップ・コンバータ 17…アンテナ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 可聴音データ圧縮システムにおいて、 可聴音データを受信し、該データ可聴音フレームに分割
    するための手段(31)と、 各可聴音フレーム内で第1および第2の可聴音ウィンド
    ーで線形予測コード分析を行なってフィルター係数と線
    スペクトル周波数の対の第1および第2の組を生成する
    ためにデータに作用する線形予測コード・アナライザお
    よび量子化子(32)であって、該第1のウィンドーは
    可聴音フレームのほぼ中央にその中心を置き、第2のウ
    ィンドーは可聴音フレームのほぼ端にその中心を置くア
    ナライザおよび量子化子と、 ベクトル量子化インデックスを含むコードブックと、 該第1および第2のウィンドーと同様、それぞれ可聴音
    フレームのほぼ中央と端にその中心を置く第3および第
    4の可聴音ウィンドーを用いて2つのピッチ推定値を生
    成するためのピッチ推定子(33)と、 可聴音フレームを第1の支配的に有声音のモードに分類
    するために該第1および第2のフィルター係数および該
    2つのピッチ推定値に応答するモード決定子(34)
    と、 該コードブックおよび該第2のピッチ推定値からの線ス
    ペクトル周波数ベクトル量子化コードブック・インデッ
    クスの第2の組を送信して第1のモードの可聴音のため
    にクローズド・ループ・ピッチ推定を管理するための送
    信機(16)と、 を含む可聴音データ圧縮システム。
  2. 【請求項2】 可聴音データ圧縮システムにおいて、 可聴音データを受信し、該データ可聴音フレームに分割
    するための手段(31)と、 各可聴音フレーム内で第1および第2の可聴音ウィンド
    ーで線形予測コード分析を行なってフィルター係数と線
    スペクトル周波数の対の第1および第2の組を生成する
    ためにデータに作用する線形予測コード・アナライザお
    よび量子化子(32)であって、該第1のウィンドーは
    可聴音フレームのほぼ中央にその中心を置き、第2のウ
    ィンドーは可聴音フレームのほぼ端にその中心を置くア
    ナライザおよび量子化子と、 ベクトル量子化インデックスを含むコードブックと、 該第1および第2のウィンドーと同様、それぞれ可聴音
    フレームのほぼ中央と端にその中心を置く第3および第
    4の可聴音ウィンドーを用いて2つのピッチ推定値を生
    成するためのピッチ推定子(33)と、 可聴音フレームを第1の支配的に有声音のモードに分類
    するために該第1および第2のフィルター係数および該
    2つのピッチ推定値に応答するモード決定子(34)
    と、 線スペクトル周波数ベクトル量子化コードブック・イン
    デックスの両方の組を送信するための送信機(16)
    と、 を含む可聴音データ圧縮システム。
JP5130544A 1992-06-01 1993-06-01 セルプを使用した音声圧縮装置 Expired - Lifetime JPH0736118B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US89159692A 1992-06-01 1992-06-01
US891596 1992-06-25
US905992 1992-06-25
US07/905,992 US5495555A (en) 1992-06-01 1992-06-25 High quality low bit rate celp-based speech codec

Publications (2)

Publication Number Publication Date
JPH0635500A JPH0635500A (ja) 1994-02-10
JPH0736118B2 true JPH0736118B2 (ja) 1995-04-19

Family

ID=27128985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5130544A Expired - Lifetime JPH0736118B2 (ja) 1992-06-01 1993-06-01 セルプを使用した音声圧縮装置

Country Status (8)

Country Link
US (1) US5495555A (ja)
EP (1) EP0573398B1 (ja)
JP (1) JPH0736118B2 (ja)
AT (1) ATE174146T1 (ja)
CA (1) CA2096991C (ja)
DE (1) DE69322313T2 (ja)
FI (1) FI932465A7 (ja)
NO (1) NO931974L (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9234237B2 (en) 2004-06-07 2016-01-12 Fluidigm Corporation Optical lens system and method for microfluidic devices

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2225321T3 (es) * 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
JP2624130B2 (ja) * 1993-07-29 1997-06-25 日本電気株式会社 音声符号化方式
EP0657874B1 (en) * 1993-12-10 2001-03-14 Nec Corporation Voice coder and a method for searching codebooks
CA2136891A1 (en) * 1993-12-20 1995-06-21 Kalyan Ganesan Removal of swirl artifacts from celp based speech coders
CA2181456A1 (en) * 1994-02-01 1995-08-10 William R. Gardner Burst excited linear prediction
US6463406B1 (en) * 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
JPH0830299A (ja) * 1994-07-19 1996-02-02 Nec Corp 音声符号化装置
DE69526017T2 (de) * 1994-09-30 2002-11-21 Kabushiki Kaisha Toshiba, Kawasaki Vorrichtung zur Vektorquantisierung
JP3557255B2 (ja) * 1994-10-18 2004-08-25 松下電器産業株式会社 Lspパラメータ復号化装置及び復号化方法
US5727125A (en) * 1994-12-05 1998-03-10 Motorola, Inc. Method and apparatus for synthesis of speech excitation waveforms
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5680506A (en) * 1994-12-29 1997-10-21 Lucent Technologies Inc. Apparatus and method for speech signal analysis
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
DE69615227T2 (de) * 1995-01-17 2002-04-25 Nec Corp., Tokio/Tokyo Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
US5668924A (en) * 1995-01-18 1997-09-16 Olympus Optical Co. Ltd. Digital sound recording and reproduction device using a coding technique to compress data for reduction of memory requirements
JP3303580B2 (ja) * 1995-02-23 2002-07-22 日本電気株式会社 音声符号化装置
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US5781882A (en) * 1995-09-14 1998-07-14 Motorola, Inc. Very low bit rate voice messaging system using asymmetric voice compression processing
CA2188369C (en) * 1995-10-19 2005-01-11 Joachim Stegmann Method and an arrangement for classifying speech signals
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
US5819224A (en) * 1996-04-01 1998-10-06 The Victoria University Of Manchester Split matrix quantization
US5794180A (en) * 1996-04-30 1998-08-11 Texas Instruments Incorporated Signal quantizer wherein average level replaces subframe steady-state levels
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
JPH09312620A (ja) * 1996-05-23 1997-12-02 Nec Corp 音声データ補間処理装置
JPH09319397A (ja) * 1996-05-28 1997-12-12 Sony Corp ディジタル信号処理装置
CA2258183A1 (en) * 1996-07-17 1998-01-29 Universite De Sherbrooke Enhanced encoding of dtmf and other signalling tones
US7788092B2 (en) * 1996-09-25 2010-08-31 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
AU4497097A (en) * 1996-09-25 1998-04-17 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
KR100198476B1 (ko) * 1997-04-23 1999-06-15 윤종용 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
US5946650A (en) * 1997-06-19 1999-08-31 Tritech Microelectronics, Ltd. Efficient pitch estimation method
US5924062A (en) * 1997-07-01 1999-07-13 Nokia Mobile Phones ACLEP codec with modified autocorrelation matrix storage and search
US6266419B1 (en) * 1997-07-03 2001-07-24 At&T Corp. Custom character-coding compression for encoding and watermarking media content
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
US6108624A (en) * 1997-09-10 2000-08-22 Samsung Electronics Co., Ltd. Method for improving performance of a voice coder
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6253173B1 (en) * 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
EP1426925B1 (en) 1997-12-24 2006-08-02 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
US7392180B1 (en) * 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
JP3618217B2 (ja) * 1998-02-26 2005-02-09 パイオニア株式会社 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体
US6823013B1 (en) * 1998-03-23 2004-11-23 International Business Machines Corporation Multiple encoder architecture for extended search
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6173254B1 (en) * 1998-08-18 2001-01-09 Denso Corporation, Ltd. Recorded message playback system for a variable bit rate system
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
FR2783651A1 (fr) * 1998-09-22 2000-03-24 Koninkl Philips Electronics Nv Dispositif et procede de filtrage d'un signal de parole, recepteur et systeme de communications telephonique
US6182030B1 (en) 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6377914B1 (en) 1999-03-12 2002-04-23 Comsat Corporation Efficient quantization of speech spectral amplitudes based on optimal interpolation technique
AU4072400A (en) 1999-04-05 2000-10-23 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for frequency domain interpolative speech codec system
JP4464488B2 (ja) * 1999-06-30 2010-05-19 パナソニック株式会社 音声復号化装置及び符号誤り補償方法、音声復号化方法
US6704701B1 (en) * 1999-07-02 2004-03-09 Mindspeed Technologies, Inc. Bi-directional pitch enhancement in speech coding systems
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6826527B1 (en) * 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
JP2003522981A (ja) * 2000-02-10 2003-07-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ピッチ変化検出を伴なう誤り訂正方法
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
US6564182B1 (en) * 2000-05-12 2003-05-13 Conexant Systems, Inc. Look-ahead pitch determination
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
US7013268B1 (en) 2000-07-25 2006-03-14 Mindspeed Technologies, Inc. Method and apparatus for improved weighting filters in a CELP encoder
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
KR100872538B1 (ko) * 2000-11-30 2008-12-08 파나소닉 주식회사 Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, lpc 계수의 복호화 장치, 기록 매체,음성 부호화 장치, 음성 복호화 장치, 음성 신호 송신장치, 및 음성 신호 수신 장치
JP3907161B2 (ja) * 2001-06-29 2007-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワード検索方法、キーワード検索端末、コンピュータプログラム
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
US6823011B2 (en) * 2001-11-19 2004-11-23 Mitsubishi Electric Research Laboratories, Inc. Unusual event detection using motion activity descriptors
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
KR100837451B1 (ko) * 2003-01-09 2008-06-12 딜리시움 네트웍스 피티와이 리미티드 향상된 품질의 음성 변환부호화를 위한 방법 및 장치
EP1513137A1 (en) * 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
DE102005000828A1 (de) * 2005-01-05 2006-07-13 Siemens Ag Verfahren zum Codieren eines analogen Signals
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US20060217972A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
US20060217988A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for adaptive level control
US20060217970A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for noise reduction
US20060217983A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for injecting comfort noise in a communications system
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
ES2347825T3 (es) * 2006-03-20 2010-11-04 Mindspeed Technologies, Inc. Atenuacion del registro de tono en bucle abierto.
US8401843B2 (en) * 2006-10-24 2013-03-19 Voiceage Corporation Method and device for coding transition frames in speech signals
KR101449431B1 (ko) * 2007-10-09 2014-10-14 삼성전자주식회사 계층형 광대역 오디오 신호의 부호화 방법 및 장치
US8326610B2 (en) * 2007-10-24 2012-12-04 Red Shift Company, Llc Producing phonitos based on feature vectors
US20100208777A1 (en) * 2009-02-17 2010-08-19 Adc Telecommunications, Inc. Distributed antenna system using gigabit ethernet physical layer device
RU2408088C2 (ru) * 2009-03-24 2010-12-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ векторного квантования параметров линейного предсказания
ES2453098T3 (es) * 2009-10-20 2014-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Códec multimodo de audio
EP2569767B1 (en) * 2010-05-11 2014-06-11 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for processing of audio signals
WO2012008891A1 (en) * 2010-07-16 2012-01-19 Telefonaktiebolaget L M Ericsson (Publ) Audio encoder and decoder and methods for encoding and decoding an audio signal
EP2795613B1 (en) 2011-12-21 2017-11-29 Huawei Technologies Co., Ltd. Very short pitch detection and coding
US9263053B2 (en) * 2012-04-04 2016-02-16 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9070356B2 (en) * 2012-04-04 2015-06-30 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
CA2979948C (en) * 2012-10-05 2019-10-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. An apparatus for encoding a speech signal employing acelp in the autocorrelation domain
CN105551497B (zh) 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
WO2014207752A1 (en) * 2013-06-27 2014-12-31 Hewlett-Packard Development Company, L.P. Authenticating user by correlating speech and corresponding lip shape

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701955A (en) * 1982-10-21 1987-10-20 Nec Corporation Variable frame length vocoder
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
DE3783905T2 (de) * 1987-03-05 1993-08-19 Ibm Verfahren zur grundfrequenzbestimmung und sprachkodierer unter verwendung dieses verfahrens.
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4989250A (en) * 1988-02-19 1991-01-29 Sanyo Electric Co., Ltd. Speech synthesizing apparatus and method
DE68916944T2 (de) * 1989-04-11 1995-03-16 Ibm Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
JPH0365822A (ja) * 1989-08-04 1991-03-20 Fujitsu Ltd ベクトル量子化符号器及びベクトル量子化復号器
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
FR2661541A1 (fr) * 1990-04-27 1991-10-31 Thomson Csf Procede et dispositif de codage bas debit de la parole.
US5271089A (en) * 1990-11-02 1993-12-14 Nec Corporation Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
US5195137A (en) * 1991-01-28 1993-03-16 At&T Bell Laboratories Method of and apparatus for generating auxiliary information for expediting sparse codebook search
US5253269A (en) * 1991-09-05 1993-10-12 Motorola, Inc. Delta-coded lag information for use in a speech coder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9234237B2 (en) 2004-06-07 2016-01-12 Fluidigm Corporation Optical lens system and method for microfluidic devices

Also Published As

Publication number Publication date
US5495555A (en) 1996-02-27
DE69322313D1 (de) 1999-01-14
EP0573398B1 (en) 1998-12-02
ATE174146T1 (de) 1998-12-15
NO931974L (no) 1993-12-02
EP0573398A2 (en) 1993-12-08
CA2096991A1 (en) 1993-12-02
DE69322313T2 (de) 1999-07-01
JPH0635500A (ja) 1994-02-10
EP0573398A3 (ja) 1994-02-16
FI932465A0 (fi) 1993-05-28
CA2096991C (en) 1997-03-18
FI932465A7 (fi) 1993-12-02
NO931974D0 (no) 1993-05-28

Similar Documents

Publication Publication Date Title
JPH0736118B2 (ja) セルプを使用した音声圧縮装置
US7016831B2 (en) Voice code conversion apparatus
US6418408B1 (en) Frequency domain interpolative speech codec system
US6996523B1 (en) Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6931373B1 (en) Prototype waveform phase modeling for a frequency domain interpolative speech codec system
KR100487136B1 (ko) 음성복호화방법및장치
EP0409239B1 (en) Speech coding/decoding method
US6202046B1 (en) Background noise/speech classification method
US6691092B1 (en) Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US7013269B1 (en) Voicing measure for a speech CODEC system
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US5359696A (en) Digital speech coder having improved sub-sample resolution long-term predictor
US9972325B2 (en) System and method for mixed codebook excitation for speech coding
JP2004526213A (ja) 音声コーデックにおける線スペクトル周波数ベクトル量子化のための方法およびシステム
JP2003512654A (ja) 音声の可変レートコーディングのための方法およびその装置
JP6626123B2 (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法
US7373298B2 (en) Apparatus and method for coding excitation signal
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
CN117476022A (zh) 声音编解码方法以及相关装置、系统
JPH05232995A (ja) 一般化された合成による分析音声符号化方法と装置
JPH04301900A (ja) 音声符号化装置
JP3212123B2 (ja) 音声符号化装置
JPH08202398A (ja) 音声符号化装置
JPH034300A (ja) 音声符号化復号化方式
Welch Joseph P. Campbell, Jr.