[go: up one dir, main page]

JP2003524796A - 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置 - Google Patents

音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置

Info

Publication number
JP2003524796A
JP2003524796A JP2001511670A JP2001511670A JP2003524796A JP 2003524796 A JP2003524796 A JP 2003524796A JP 2001511670 A JP2001511670 A JP 2001511670A JP 2001511670 A JP2001511670 A JP 2001511670A JP 2003524796 A JP2003524796 A JP 2003524796A
Authority
JP
Japan
Prior art keywords
vector
moving average
frame
quantized
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001511670A
Other languages
English (en)
Other versions
JP4511094B2 (ja
JP2003524796A5 (ja
Inventor
アナンタパドマナバーン、アラサニパライ・ケー
マンジュナス、シャラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2003524796A publication Critical patent/JP2003524796A/ja
Publication of JP2003524796A5 publication Critical patent/JP2003524796A5/ja
Application granted granted Critical
Publication of JP4511094B2 publication Critical patent/JP4511094B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)
  • Processing Of Color Television Signals (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 【課題】 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置。 【解決手段】 線スペクトル情報を二つのベクトル量子化手法、第1の手法は非移動平均予測に基づいた手法であり、第2の手法は移動平均予測に基づいた手法であり、これらを用いて、線スペクトル情報を量子化する。線スペクトル情報ベクトルは第1の手法でベクトル量子化される。第1の手法のため等価移動平均符号ベクトルが計算される。符号ベクトルの移動平均コードブックのメモリは、音声コーダによって前に処理された、予め設定された数のフレームに対して、等価移動平均符号ベクトルで更新される。第2の手法のための目標量子化ベクトルは更新された移動平均コードブックのメモリに基づいて計算される。この目標量子化ベクトルは量子化された目標符号ベクトルを発生するために第2の手法を用いてベクトル量子化される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は一般的に音声処理、そしてより明確には音声コーダにおいて、線スペ
クトル情報を量子化するための方法および装置に関する。
【0002】
【従来の技術】
ディジタル技術による音声の伝送は、とくに長距離およびディジタル無線電話
応用において広く使用されている。このことは、ひき続いて再構成された音声の
認識された品質を維持しながら、チャネルに送ることのできる情報の最小量を決
定することに関する、関心をひき起こしてきている。もしも音声が単にサンプリ
ングおよびディジタイジングによって伝送されるならば、現在のアナログ電話の
音声品質に到達するためには、64キロビット/秒(kbps)のオーダーのデ
ータレートが必要である。しかしながら、適切な符号化、伝送、そして受信機に
おける再組立に続く音声解析の使用によって、データレートの大きな減少が達成
可能である。
【0003】 音声を圧縮するためのデバイスは、通信の多くの分野において使用されている
。典型的な分野は無線通信である。無線通信の分野は、たとえばコードレス電話
、ページング、無線ローカルループ、セルラおよびPCS電話システムのような
無線電話、移動インターネットプロトコル電話、そして衛星通信システムなど多
くの応用を含んでいる。とくに重要な応用は移動加入者に対する無線電話である
【0004】 たとえば、周波数分割マルチプルアクセス(FDMA)、時間分割マルチプル
アクセス(TDMA)、そしてコード分割マルチプルアクセス(CDMA)を含
む無線通信システムに対する、種々の空間に対するインターフェースが開発され
てきている。それに関連して、たとえばアドバンスドモービルホンサービス(A
MPS)、グローバルシステムフォーモービルコミュニケーションズ(GSM)
、そして暫定標準95(IS‐95)を含む種々の国内および国際規格が制定さ
れてきている。典型的な無線電話通信システムは、コード分割マルチプルアクセ
ス(CDMA)システムである。IS‐95規格およびその派生規格、IS‐9
5A、ANSI J‐STD‐008、IS‐95B、提案されている第3世代
の規格IS‐95CおよびIS‐2000等(ここではまとめてIS‐95とし
て参照する)は、通信機械工業会(TIA)および他の有名な規格団体によって
、セルラあるいはPCS電話通信システムに対する、CDMAの空間に対するイ
ンターフェースの使用を明確に述べるために発布されている。IS‐95規格の
使用に従って、実質的に形成された典型的な無線通信システムは、米国特許5,
103,459および4,901,307に記述されており、これらの特許は、
本発明の譲渡人に譲渡され、参照によって完全に本発明に組み入れられている。
【0005】 人間の音声発生の模型に関するパラメータを抽出することによって、音声を圧
縮する手法を用いたデバイスは、音声コーダと呼ばれる。音声コーダは、到来音
声信号を時間のブロック、あるいは解析フレームに分割する。音声コーダは、典
型的には符号器および復号器を含む。符号器は正確な、適切なパラメータを抽出
するために到来音声フレームを分析し、そしてそこで、パラメータをバイナリ表
現に、すなわち、ビットの組み合わせすなわちバイナリデータパケットに量子化
する。データパケットは、通信チャネルを通して受信機そして復号器に送信され
る。復号器はデータパケットを処理し、それらをパラメータが発生するように非
量子化(unquantize)し、そして、その非量子化されたパラメータを用いて音
声フレームに再組立する。
【0006】 音声コーダの機能は、ディジタイズされた音声信号を、音声に固有の自然な冗
長度のすべてを除くことによって、低いビットレートの信号に圧縮することであ
る。ディジタル圧縮は入力音声フレームを、パラメータの組み合わせで表現する
ことによって、またパラメータをビットの組み合わせで表現するために量子化を
用いることによって達成される。もしも入力音声フレームがビット数Nを有し
、オンセイコーダによって作られたデータパケットがビット数Nを有するなら
ば、音声コーダによって達成された圧縮係数は、C=N/Nである。課題
は、目標圧縮係数を達成する一方で、復号化された音声の高い音声品質を保つこ
とである。音声コーダの特性は、(1)いかに適切に、音声モデル、あるいは上
に述べた解析と組立過程の組み合わせを実行するか、そして、(2)フレームあ
たりNビットの目標ビットレートにおいて、いかに適切に、パラメータ量子化
過程が実行されるか、にかかっている。このように、音声モデルの目標は、各フ
レームに対して小さなパラメータ組み合わせで、音声信号の本質、あるいは目標
とする音声品質をとらえることである。
【0007】 多分音声コーダの設計において最も重要なものは、音声信号を記述するための
適切なパラメータの組み合わせ(ベクトルを含む)に対する研究である。パラメ
ータの適切な組み合わせは、知覚的に正確な音声信号の再構成に対して、低いシ
ステム帯域幅を要求する。ピッチ、信号パワー、スペクトル包絡(すなわちフォ
ルマント)、振幅そして位相スペクトルは、音声符号化パラメータの例である。
【0008】 音声コーダは、一度に音声の小さいセグメント(典型的に5ミリ秒(ms)サ
ブフレーム)を符号化する高時間分解能処理を用いることによって、時間領域音
声波形を捕捉することを試みている、時間領域コーダとして実施されるかもしれ
ない。各サブフレームに対して、コードブックスペースからの高精度標本が、こ
の業界ではよく知られている種々の探索アルゴリズムによって見いだされる。あ
るいは音声コーダは、パラメータ(解析)の組み合わせからなる入力音声フレー
ムの短期間の音声スペクトルを捕捉することを試み、そしてスペクトルパラメー
タから音声波形を再生するのに対応する組立過程を用いている、周波数領域コー
ダとして実施されるかもしれない。パラメータ量子化器は、A.Gersho
& R.M.Gray、「ベクトル量子化および信号圧縮」(1992)に記述
されている、よく知られた量子化手法に従って、符号ベクトルの蓄えられた表現
でそれらを表現することによってパラメータを保存する。
【0009】 よく知られた時間領域音声コーダは、L.B.Rabiner & R.W.
Schfar、「音声信号のディジタル処理」396‐453(1978)に記
述されたコードエキサイテッドリニアプレディクティブ(CELP)コーダであ
る。そしてそれは参照によって本発明に完全に組み込まれている。CELPコー
ダにおいて、音声信号内の短期間相関すなわち冗長性は、短期間フォルマントフ
ィルタの係数を探す、線形予測解析によって除去される。短期間予測フィルタの
到来音声フレームへの適用は線形予測残留信号を発生し、そしてそれは、さらに
長期間予測フィルタパラメータおよびこれに続く確率コードブックによってさら
にモデル化され量子化される。このように、CELP符号化は、時間領域音声波
形を符号化するタスクを、線形予測短期間フィルタ係数を符号化するタスクと、
線形予測残留を符号化するタスクとに分割する。時間領域符号化は固定されたレ
ート(すなわち各フレームに対して同じビット数Nを用いて)で、あるいは種
々のレート(この場合はフレーム内容の異なった形式に対して異なったビットレ
ートが用いられる)で、実行することができる。可変レート符号器は、コーデッ
クパラメータを、目標品質を得るのに適切なレベルに、符号化するのに必要な、
ビット量のみを用いることを試みている。典型的な可変レートCELPコーダは
、本発明の譲渡人に譲渡され、そして参照によって本発明に完全に組み入れられ
ている、米国特許5,414,796に記述されている。
【0010】 CELPコーダのような時間領域コーダは、典型的に時間領域音声波形の精度
を保つために、高いフレームあたりのビット数Nに頼っている。このようなコ
ーダは典型的に、比較的高い(たとえば8kbpsあるいはそれ以上)フレーム
あたりのビット数Nによって与えられる非常に優れた音声品質を備えている。
しかしながら、低いビットレート(4kbpsあるいはそれ以下)においては、
時間領域コーダは利用できるビット数が制限されることによって高い品質と強い
機能とを保つことができない。低いビットレートにおいて、制限されたコードブ
ックスペースは、従来の時間領域コーダにおける、より高いレートの商業用途に
うまく展開している波形整合能力を切り落とす。このため、絶えざる改善にもか
かわらず、低いビットレートで動作している多くのCELP符号化システムは、
典型的に雑音と特性づけられる、知覚的に大きな歪みを受ける。
【0011】 現在、中位から低いビットレート(すなわち2.4から4kbps、あるいは
それ以下)で動作する高品質の音声コーダを開発するという研究的関心と、強い
商業的ニーズの波が存在する。応用分野は、無線電話、衛星通信、インターネッ
ト電話、種々のマルチメディア、そして音声ストリーミング応用、音声メール、
そして他の音声蓄積システムを含む。推進力は、高容量に対するニーズおよびパ
ケット損失状況下における強力な機能に対する要求である。種々の最近の音声符
号化標準化努力は、低レート音声符号化アルゴリズム研究と開発を推進する他の
直接な推進力である。低レート音声コーダは、許容できる使用帯域幅あたりのさ
らなるチャネル、すなわちユーザを作り出し、そして適切なチャネル符号化に関
しての、付加的な積み重ねと結びついた低レート音声コーダは、符号器規格の総
体的ビット予算に適合することができ、そしてチャネル誤り条件のもとで強い機
能を確保する。
【0012】 低いビットレートにおいて音声を効率的に符号化する有効な手法はマルチモー
ド符号化である。典型的なマルチモード符号化手法は、「可変レート音声符号化
」と題する、1998年12月21日に提出され、本発明の譲渡人に譲渡され、
そして参照によって本発明に完全に組み込まれている、米国アプリケーションシ
リアル番号09/217,341の中に記述されている。従来のマルチモード符
号器は、入力音声フレームの異なった形式に対して、異なったモード、あるいは
符号化‐復号化アルゴリズムを適用する。各モードあるいは符号化‐復号化過程
は、たとえば、有声音声、無声音声、遷移音声(たとえば有声および無声の中間
)、そして背景雑音(非音声)など音声セグメントに関する確実な形式を最適に
表現するために、もっとも効率的な方法でカスタマイズされる。外部の、開ルー
プモード決定メカニズムは、入力音声フレームを吟味し、フレームに対してどの
モードを適用するかに関する決定を下す。開ループモード決定は、典型的に入力
フレームからいくつかのパラメータを抽出し、確実な、一時的な、そしてスペク
トルの特性に関してパラメータを評価し、そして評価の上にモード決定の基礎を
置くことによって行われる。
【0013】 多くの従来の音声コーダにおいては、線スペクトル対あるいは線スペクトル余
弦などの線スペクトル情報は、有声音声の定常的な性質を利用することなく、符
号化レートを十分に減少させることなしに、有声音声フレームの符号化によって
送信される。そこで、価値のある帯域幅が浪費される。他の従来の音声コーダ、
マルチモード音声コーダ、あるいは低ビットレート音声コーダにおいては、有声
音声の定常性は、各フレームに対して利用される。したがって非定常状態フレー
ムは劣化し、音声品質は損なわれる。各フレームの音声含有量の性質に反応する
適応符号化方法を与えることは有利であろう。その上音声信号は一般的に非定常
的、すなわち非静的であるので、音声符号化に用いられる線スペクトル情報パラ
メータの量子化の効率は、音声の各フレームの線スペクトル情報パラメータが、
移動平均予測に基づいたベクトル量子化を使用するか、あるいは他の標準ベクト
ル量子化方法を使用するかの何れかによって、選択的に符号化する方式を使用す
ることにより、改善することができるかもしれない。このような方式は、上記二
つのベクトル量子化方法の何れかの利益を有利に利用するであろう。したがって
、この二つの量子化方法を、一つの方法から他への遷移境界においては適切に混
合することによって交錯する音声コーダを与えることが望ましい。このように、
周期的フレームおよび非周期的フレーム間の変化に適応するために、マルチプル
ベクトル量子化方法を用いる音声コーダに対するニーズが存在する。
【0014】
【課題を解決するための手段】
本発明は、周期的フレームおよび非周期的フレーム間の変化に適応するために
、マルチプルベクトル量子化方法を使用する音声コーダに向けられている。よっ
て発明の一つの観点においては、音声コーダは、フレームを解析し、それに基づ
き線スペクトル情報符号ベクトルを発生するように形成された線形予測フィルタ
と、そして、線形予測フィルタと結合し、非移動平均予測に基づいたベクトル量
子化方法による第一のベクトル量子化手法を用いて、線スペクトル情報ベクトル
をベクトル量子化するように形成された量子化器(quantizer)とを有利に含ん
でおり、そしてそこで、量子化器は、第一の手法のための等価移動平均符号ベク
トルを計算し、音声コーダによって前に処理された、予め設定されたフレーム数
に対する符号ベクトルの移動平均コードブックのメモリをこの等価移動平均コー
ドブックで更新し、更新された移動平均コードブックのメモリに基づいて第二の
手法のための目標量子化ベクトルを計算し、量子化された目標符号ベクトルを発
生するために、移動平均予測に基づいた方法を用いている第二のベクトル量子化
手法で目標量子化ベクトルをベクトル量子化し、移動平均コードブックのメモリ
を量子化された目標符号ベクトルで更新し、そして量子化された目標符号ベクト
ルから量子化された線スペクトル情報を計算するようにさらに配置されている。
【0015】 発明の他の観点においては、非移動平均予測に基づいたベクトル量子化方法を
用いている第一の技術と、移動平均予測に基づいたベクトル量子化手法を用いて
いる第二の技術と、この第一と第二の量子化ベクトル量子化技術を用いている、
フレームの線スペクトル情報ベクトルをベクトル量子化する方法は、線スペクト
ル情報ベクトルを第一のベクトル量子化手法でベクトル量子化し、第一の手法の
ための等価移動平均符号ベクトルを計算し、音声コーダによって前に処理された
予め設定されたフレーム数に対する符号ベクトルの移動平均コードブックのメモ
リを、移動平均符号ベクトルで更新し、更新された移動平均コードブックのメモ
リに基づいて第二の手法のための目標量子化ベクトルを計算し、目標量子化ベク
トルを量子化された目標符号ベクトルを発生するために第二のベクトル量子化手
法でベクトル量子化し、量子化された目標符号ベクトルで移動平均コードブック
ベクトルのメモリを更新し、そして量子化された目標符号ベクトルから、量子化
された線スペクトル情報ベクトルを導出するステップを有利に含む。
【0016】 発明の他の観点においては、音声コーダは、非移動平均予測に基づいたベクト
ル量子化方法を用いる第一のベクトル量子化手法でフレームの線スペクトル情報
ベクトルをベクトル量子化するための手段、第一の手法のための等価移動平均符
号ベクトルを計算するための手段、音声コーダによって前に処理された予め設定
されたフレーム数に対する符号ベクトルの移動平均コードブックのメモリを等価
移動平均符号ベクトルで更新するための手段、更新された移動平均コードブック
メモリに基づき第二の手法のための目標量子化ベクトルを計算するための手段、
量子化された目標符号ベクトルを発生するために、目標量子化ベクトルを第二の
目標量子化手法を用いてベクトル量子化するための手段、移動平均コードブック
のメモリを量子化された目標符号ベクトルで更新するための手段、そして量子化
された目標符号ベクトルから量子化された線スペクトル情報ベクトルを導出する
ための手段を有利に含む。
【0017】
【発明の実施の形態】
以下に述べる典型的な実施例は、CDMAの空間に対するインターフェースを
用いて形成された無線電話通信システムに属する。それにも拘らず、当業者によ
って、この発明の特徴を具体化しているサブサンプリング法および装置は、当業
者に知られている広範囲の技術を用いている、種々の通信システムの何れにも属
するかも知れないことを、了解されるべきであろう。
【0018】 図1に説明したように、CDMA無線電話システムは、一般的に、複数の移動
加入者ユニット10、複数の基地局12、基地局制御器(BSCs)14、そし
て移動スイッチングセンター(MSC)16を含む。移動スイッチングセンター
16は、従来の公衆交換電話回路網(PSTN)18とインターフェースを形成
する。移動スイッチングセンター16はまた、基地局制御器14ともインターフ
ェースを形成する。基地局制御器14は迂回中継線を経て基地局12と結合され
ている。迂回中継線は、たとえばE1/T1、ATM、IP、PPP,フレーム
リレー、HDSL、ADSL、あるいはxDSLを含む、いくつかの既知のイン
ターフェースの何れをも支持するよう形成されているかもしれない。システム内
には、二つより多くの基地局制御器14があるかもしれないことは了解される。
各基地局12は、有利に、少なくとも一つのセクタ(図示せず)を含み、各セク
タは、全方向性アンテナあるいは、基地局12から特定方向に放射状に離れた点
にあるアンテナを含む。代わりに、各セクタは、ダイバーシティ受信のための二
つのアンテナを含むかもしれない。各基地局12は、好都合に、複数の周波数割
り当てを支持するように設計されているかも知れない。セクタの交点(intersec
tion)および周波数の割り当ては、CDMAチャネルとして参照されるかもしれ
ない。基地局12はまた、基地局トランシーバサブシステム(BTSs)12と
して知られるかもしれない。代わりに、“基地局”は産業界において、基地局制
御器(BSC)14および一つあるいはそれ以上の基地局トランシーバサブシス
テムをまとめて参照するために使用されるかもしれない。基地局トランシーバサ
ブシステム12はまた、“セルサイト”12と表示されるかもしれない。代わり
に、与えられた基地局トランシーバサブシステム(BTS)12の個々のセクタ
は、セルサイトとして参照されるかもしれない。移動加入者ユニット10は、典
型的にセルラ、あるいはPCS電話10である。システムは、有利に、IS‐9
5標準に従った使用のために形成される。
【0019】 セルラ電話システムの典型的動作の期間中、基地局12は、一連の移動ユニッ
ト10から、一連の逆方向リンク信号を受信する。移動ユニット10は、電話呼
あるいは他の通信を処理する。与えられた基地局12によって受信された、各逆
方向リンク信号は、その基地局12の中で処理される。その結果のデータは、基
地局制御器14に転送される。基地局制御器14は、基地局12間のソフトハン
ドオフの調和的総合化を含む、コールリソースアロケーション(call re
sourece allocation)および、移動性マネージメントファン
クショナリティ(mobility management function
ality)を与える。基地局制御器14はまた、受信データを移動スイッチン
グセンター16に送る。そして移動スイッチングセンター16は、公衆交換電話
回路網18とのインターフェースに対して付加的な経路支持サービスを与える。
同様に、公衆交換電話回路網18は移動スイッチングセンター16とインターフ
ェース接続し、そして移動スイッチングセンター16は、基地局制御器14とイ
ンターフェース接続する。基地局制御器14は、順番に基地局12を、一連の順
方向リンク信号を一連の移動ユニット10に送信するよう制御する。
【0020】 図2において、第1の符号器100は、ディジタル化された音声サンプルs(
n)を受信し、第1の復号器104に対して、伝送媒体102あるいは通信チャ
ネル102上に送信するためにサンプルs(n)を符号化する。復号器104は
、符号化された音声サンプルを復号し、出力音声信号ssynth(n)を組立
てる。反対方向への送信のためには、第2の符号器106が、ディジタル化され
た音声サンプルs(n)を符号化し、通信チャネル108上に送信される。第2
の復号器110は、符号化された音声サンプルを受信し、組立てられた出力音声
信号ssynth(n)を発生しながら復号する。
【0021】 音声サンプルs(n)は、たとえばパルス符号変調(PCM)、コンパンデッ
ドμ‐law、あるいはA‐lawを含む、当業界では知られた種々の方法のど
れかに従って、ディジタル化され量子化されている音声信号を示す。当業界にお
いては知られているように、音声サンプルs(n)は、入力データのフレームに
構造化され、そこで各フレームはディジタル化された音声サンプルs(n)の、
予め設定された数を含んでいる。典型的実施例においては、8kHzのサンプリ
ングレートが、160のサンプルを含んでいる各20ミリ秒のフレームとともに
使用される。以下に述べる実施例においては、データ送信のレートは、フレーム
ツーフレーム基準で、13.2kbps(フルレート)から6.2kbps(ハ
ーフレート)に、2.6kbps(4分の1レート)に、1kbps(8分の1
レート)に、有利に変えられるかもしれない。データ送信レートが変化すること
は、より低いビットレートは、比較的少ない音声情報を含んでいるフレームに対
して選択的に使用されるかもしれないために、好都合である。当業者により了解
されるように、他のサンプリングレート、フレームサイズ、そしてデータ送信レ
ートが使用されるかもしれない。
【0022】 第1の符号器100および第2の復号器110は、ともに第1の音声コーダ、
すなわち音声コーデックを含む。音声コーダは、たとえば、図1を参照して前に
述べた、加入者ユニット、基地局トランシーバサブシステム、あるいは基地局制
御器を含む音声信号を送信するためのいずれの通信デバイスにおいても使用可能
であろう。同様にして、第2の符号器106、および第1の復号器104はとも
に第2の音声コーダを含んでいる。当業者によって、音声コーダは、ディジタル
信号処理装置(DSP)、特定用途向け集積回路(ASIC)、ディスクリート
ゲートロジック、ファームウエア、あるいは、いずれの従来のプログラマブルソ
フトウエアモジュールおよびマイクロ処理装置を用いて、実行されるかもしれな
いことは理解される。ソフトウエアモジュールは、ランダムアクセスメモリ、フ
ラッシュメモリ、抵抗器、あるいは、当業界で知られている、いずれの他の書き
込み可能な蓄積媒体の形態内に属することができるであろう。代わりに、いずれ
の従来の処理装置、制御器あるいはステートマシンがマイクロ処理装置に代わっ
て置き換えられるであろう。音声符号化用にとくに設計された典型的な特定用途
向け集積回路は、本発明の譲渡人に譲渡され、参照によって本発明に完全に組み
込まれている、米国特許5,727,123、および、「ボコーダ用途向け集積
回路」と題する、1994年2月16日に提出され、本発明の譲渡人に譲渡され
、参照によって本発明に完全に組み込まれている、米国アプリケーションシリア
ル番号08/197,417の中に記述されている。
【0023】 図3において、音声符号器に用いられるかもしれない符号器200は、モード
決定モジュール202、ピッチ評価モジュール204、線形予測解析モジュール
206、線形予測解析フィルタ208、線形予測量子化モジュール210、そし
て残留量子化モジュール212を含む。入力音声フレームs(n)は、モード決
定モジュール202、ピッチ評価モジュール204、線形予測解析モジュール2
06、そして線形予測解析フィルタ208に与えられる。モード決定モジュール
202は、他の数ある特徴の中で、周期性、エネルギー、信号対雑音比(SNR
)、あるいはゼロクロッシングレートモードに基づいて、各入力音声フレームs
(n)の、インデックスIおよびモードMを発生する。周期性にしたがって、
音声フレームを分類する種々の方法は、本発明の譲渡人に譲渡され、参照によっ
て発明の中に完全に組み込まれている、米国特許5,911,128の中に記述
されている。これらの方法はまた、通信機械工業会産業暫定規格TIA/EIA
IS‐127およびTIA/EIA IS‐733の中に組み込まれている。
典型的なモード決定方法はまた、前述の米国アプリケーションシリアル番号09
/217,341の中に記述されている。
【0024】 ピッチ評価モジュール204は、各入力音声フレームs(n)に基づいてピッ
チインデックスIおよび遅れ値Pを生じる。線形予測解析モジュール206
は、線形予測パラメータaを発生するために、各入力音声フレームs(n)に関
する線形予測解析を行う。線形予測パラメータaは、線形予測量子化モジュール
210に与えられる。線形予測量子化モジュール210はまた、モードMを受信
し、それに関してモードに依存した方法で量子化過程を実行する。線形予測量子
化モジュール210は、線形予測インデックスILPおよび量子化された線形予
測パラメータ
【数37】 を生じる。線形予測解析フィルタ208は、入力音声フレームs(n)に加えて
、量子化された線形予測パラメータ
【数38】 を受信する。線形予測解析フィルタ208は、入力音声フレームs(n)と量子
化された線形予測パラメータ
【数39】 に基づき再組立した音声との間の誤差を示す、線形予測残留信号R[n]を発生
する。線形予測残留R[n]、モードM、そして量子化された線形予測パラメー
【数40】 は、残留量子化モジュール212に与えられる。これらの値に基づき、残留量子
化モジュール212は、残留インデックスIおよび量子化された残留信号
【数41】 を生じる。
【0025】 図4において、音声コーダ内に使用されるかも知れない復号器300は、線形
予測パラメータ復号化モジュール302、残留復号化モジュール304、モード
復号化モジュール306、そして線形予測組立フィルタ308を含む。モード復
号化モジュール306は、それからモードMを発生しながら、モードインデック
スIを受信し復号する。線形予測パラメータ復号化モジュール302は、モー
ドMおよび線形予測インデックスILPを受信する。線形予測パラメータ復号化
モジュール302は、量子化された線形予測パラメータ
【数42】 を生じるために、受信値を復号する。残留復号化モジュール304は、残留イン
デックスI、ピッチインデックスI、そしてモードインデックスIを受信
する。残留復号化モジュール304は、量子化された残留信号
【数43】 を発生するために、受信値を復号する。量子化された残留信号
【数44】 および量子化された線形予測パラメータ
【数45】 は、そこから復号化された出力音声信号S[n]が組み立てられる、線形予測組立
フィルタ308に与えられる。
【0026】 図3の符号器200、および図4の復号器300の、種々のモジュールの動作
および実行は、当業界には知られており、前述の米国特許5,414,796、
およびL.B.Labiner & R.W.Schafer、「音声信号のデ
ィジタル処理」396‐453(1978)に記述されている。
【0027】 図5のフローチャートに示したように、実施例に従った音声コーダは、送信の
ために音声サンプルの処理をする一連のステップに従う。ステップ400におい
て、音声コーダは連続したフレーム内の音声信号のディジタルサンプルを受信す
る。与えられたフレームの受信と同時に、音声コーダはステップ402に進む。
ステップ402において、音声コーダはフレームのエネルギーを検出する。この
エネルギーはフレームの音声活動の尺度である。音声検出は、ディジタル化され
た音声サンプルの振幅の2乗を集計し、その結果のエネルギーをしきい値と比較
することによって行われる。実施例において、しきい値は背景雑音の変化してい
るレベルに基づいて順応する。典型的な可変しきい値音声活動検出器は、前述の
米国特許5,414,796に記述されている。若干の無声音声音は、背景雑音
として、誤って符号化されるかもしれないほど、極端に低いエネルギーサンプル
でありうる。この発生を防ぐために、低エネルギーサンプルのスペクトル傾き(
tilt)が、前述の米国特許5,414,796に記述されているように背景
雑音から無声音声を識別するために用いられるかも知れない。
【0028】 フレームのエネルギーを検出した後、音声コーダはステップ404に進む。ス
テップ404においては、音声コーダは、検出されたフレームエネルギーがフレ
ームを音声情報を含むとして分類するのに十分であるか否かを決定する。もしも
、検出されたフレームエネルギーが、予め設定されたしきい値レベルよりも下で
あれば、音声コーダはステップ406に進む。ステップ406においては、音声
コーダはフレームを背景雑音(すなわち無音声あるいは無音)として符号化する
。実施例においては、背景雑音フレームは1/8レートすなわち1kbpsとし
て符号化される。もしもステップ404において検出されたフレームエネルギー
が予め設定されたしきい値レベルを満足し、あるいは超えていれば、このフレー
ムは音声として分類され、音声コーダはステップ408に進む。
【0029】 ステップ408においては、音声コーダは、フレームが無声音声であるか否か
を決定する。すなわち音声コーダはフレームの周期性を吟味する。周期性決定に
関する種々の既知の方法は、たとえばゼロクロッシングの使用、および規格化さ
れた自己相関関数(NACFs)の使用を含む。とくに、周期性の検出にゼロク
ロッシングおよび自己相関関数を使用することは、前述の米国特許5,911,
128、および米国アプリケーションシリアル番号09/217,341に記述
されている。さらに、無声音声から有声音声を識別するのに使用される上記の方
法は、通信機械工業会暫定規格TIA/EIA IS‐127およびTIA/E
IA IS‐733の中に組み入れられている。もしもステップ408において
、フレームが無声音声と決定されれば、音声コーダはステップ410に進む。ス
テップ410においては、音声コーダは、フレームを無声音声として符号化する
。実施例においては、無声音声フレームは、4分の1レートすなわち2.6kb
psで符号化される。もしもステップ408においてフレームが無声音声である
と決定されなければ、音声コーダはステップ412に進む。
【0030】 ステップ412において、音声コーダは、たとえば前述の米国特許5,911
,128に記述されているように、当業界においては知られている周期性検出方
法を用いて、このフレームが遷移音声であるか否かを決定する。もしもフレーム
が遷移音声であると決定されれば、音声コーダはステップ414に進む。ステッ
プ414において、フレームは遷移音声(すなわち無声音声から有声音声への遷
移)として符号化される。実施例において、遷移音声フレームは、「遷移音声フ
レームのマルチパルス補間符号化」、と題する、1999年5月7日に提出され
た、そして本発明の譲渡人に譲渡され、参照によって本発明に完全に組み込まれ
た、米国アプリケーションシリアル番号09/307,294の中に記述されて
いる、マルチパルス補間符号化方法に従って符号化される。他の実施例において
、遷移音声フレームはフルレートすなわち13.2kbpsで符号化される。
【0031】 もしもステップ412において、音声コーダがフレームは遷移音声ではないと
決定すれば、音声コーダはステップ416に進む。ステップ416において、音
声コーダはフレームを有声音声として符号化する。実施例において、有声音声フ
レームはハーフレートすなわち6.2kbpsで符号化されるかもしれない。有
声音声フレームをフルレートすなわち13.2kbps(あるいは8kCELP
コーダにおいてはフルレート、8kbps)で符号化することもまた可能である
。しかしながら、当業者は、有声フレームのハーフレートにおける符号化は、有
声フレームの定常的性質を利用することによって、符号器に貴重な帯域幅の節約
を可能とすることを評価するであろう。さらに、有声音声を符号化するのに使用
されたレートにかかわらず、有声音声は、過ぎたフレームからの情報を用いて有
利に符号化され、そしてまたそのために、予測的に符号化されると言われる。
【0032】 当業者は、音声信号あるいは対応する線形予測残留の何れでも、図5に示され
たステップに従って符号化されるかもしれないことを評価するであろう。雑音、
無声、遷移、そして有声音声の波形特性は、図6Aのグラフにおいて、時間の関
数として見ることができる。雑音、無声、遷移、そして有声の線形予測残留の波
形特性は、図6Bのグラフにおいて、時間の関数として見ることができる。
【0033】 実施例において、音声コーダは、線スペクトル情報ベクトル量子化に関する、
二つの方法を交錯するために、図7のフローチャートに示されるアルゴリズムス
テップを実行する。音声コーダは有利に非移動平均予測に基づいた線スペクトル
情報ベクトル量子化のための、等価移動平均コードブックベクトルの推定値を計
算し、そしてこのことは、音声コーダが、線スペクトル情報ベクトル量子化に関
する、二つの方法を交錯することを可能とする。移動平均予測に基づいた方法に
おいて、移動平均は、前に処理したフレームの数、Pに対して計算される。パラ
メータを掛け合わせることによって計算されている移動平均は、以下に述べるよ
うに、各ベクトルコードブック記載内容によって重みづけする。移動平均は、こ
れも以下に述べるように、目標量子化ベクトルを発生するために、線スペクトル
情報パラメータの入力ベクトルから減算される。非移動平均予測に基づいたベク
トル量子化方法は、移動平均予測に基づいたベクトル量子化方法を用いない、何
れかの知られたベクトル量子化方法であるかもしれないことは、当業者によって
容易に評価されるであろう。
【0034】 線スペクトル情報パラメータは、フレーム間移動平均予測とベクトル量子化を
用いること、あるいは、たとえば、スプリットベクトル量子化,マルチステージ
ベクトル量子化(MSVQ)、スイッチド予測的ベクトル量子化(SPVQ)、
あるいはこれらの一部、あるいはすべての組み合わせなどの、いずれかの他の標
準的非移動平均予測に基づいたベクトル量子化方法を用いることのどちらかによ
って、典型的に量子化される。図7を参照して記述された実施例において、一つ
の方法が、上述のベクトル量子化法の何れかと移動平均予測に基づいたベクトル
量子化法とを混合するために使用される。移動平均予測に基づいたベクトル量子
化法は、本質が定常的、すなわち静的な(図6A‐Bにおける静的な有声フレー
ムについて示されているような信号を示す)音声フレームに対する、最適効果の
ために用いられる一方で、非移動平均予測に基づいたベクトル量子化法は、本質
が定常的でない、すなわち非静的な(図6A‐Bにおける無声フレームおよび遷
移フレームについて示されているような信号を示す)音声フレームに対する最適
効果のために用いられることから、これは望ましいことである。
【0035】 N‐次元の線スペクトル情報パラメータを量子化するための、非移動平均予測
に基づいたベクトル量子化方法において、Mthフレームに対する入力ベクトル
【数46】 は量子化に対する目標として直接に使用され、そして上で言及した標準ベクトル
量子化手法の何れかを用いて、ベクトル
【数47】 に量子化される。
【0036】 典型的なフレーム間移動平均予測法において、量子化にための目標は
【数48】 として計算される。ここで、
【数49】 は、フレームMのすぐ前のP個のフレームに関する線スペクトル情報パラメータ
に対応するコードブック記載内容である。そして、
【数50】 は、
【数51】 であるような、それぞれの加重値である。目標量子化Uはそこで、上で言及し
たベクトル量子化手法の何れかを用いて
【数52】 に量子化される。量子化された線スペクトル情報ベクトルはつぎのように計算さ
れる。
【数53】
【0037】 移動平均予測手法は、コードブック記載内容の過去の値、過去のP個のフレー
ムに対する
【数54】 の存在を必要とする。コードブック記載内容はこれらのフレーム(過去のP個の
フレームの中に)に対して自動的に得られる一方、それらは移動平均手法を用い
てそれ自身量子化されており、過去のP個のフレームの残留は、非移動平均予測
に基づいたベクトル量子化手法を用いて量子化されていることが可能であり、そ
して対応するコードブック記載内容
【数55】 は、これらのフレームに対しては直接に得られない。このことは、上の二つのベ
クトル量子化の方法を混合する、すなわち交錯することを困難にしている。
【0038】 図7を参照して記述された実施例において、コードブック記載内容
【数56】 が明確に得られない、
【数57】 の場合、コードブック記載内容
【数58】 の推定値
【数59】 を計算するのに、つぎの式
【数60】 が有利に使用されている。ここで、
【数61】 は、
【数62】 であるような、それぞれの加重値であり、
【数63】 が初期条件である。典型的な初期条件は
【数64】 であって、ここでLは線スペクトル情報(LSI)パラメータのバイアス値で
ある。つぎのものは、加重値の典型的組み合わせである。
【数65】
【0039】 図7のフローチャートのステップ500において、音声コーダは、入力線スペ
クトル情報ベクトルLを、移動平均予測に基づいたベクトル量子化手法で量子
化するか否かを決定する。この決定は、フレームの音声含有量に有利に基づいて
いる。たとえば、静的有声フレームに関する入力線スペクトル情報パラメータは
、移動平均予測に基づいたベクトル量子化方法で、もっとも有利に量子化される
。一方無声フレームおよび遷移フレームに関する入力線スペクトル情報パラメー
タは、非移動平均予測に基づいたベクトル量子化方法で、もっとも有利に量子化
される。もしも音声コーダが、入力線スペクトル情報ベクトルLを、移動平均
予測に基づいたベクトル量子化方法で量子化することを決定すれば、音声コーダ
はステップ502に進む。一方、もしも音声コーダが、入力線スペクトル情報ベ
クトルLを、移動平均予測に基づいたベクトル量子化方法で量子化しないと決
定すれば、音声コーダはステップ504に進む。
【0040】 ステップ502において、音声コーダは、上の方程式(1)に従って、量子化
のための目標Uを計算する。音声コーダはそこでステップ506に進む。ステ
ップ506において、音声コーダは、当業界の人によく知られている、種々の一
般的ベクトル量子化手法の何れかに従って目標Uを量子化する。音声コーダは
そこでステップ508に進む。ステップ508においては、音声コーダは、上の
方程式(2)に従って、量子化された目標
【数66】 から、量子化された線スペクトル情報パラメータのベクトル
【数67】 を計算する。
【0041】 ステップ504においては、音声コーダは、当業界においてはよく知られた種
々の非移動平均予測に基づいたベクトル量子化手法に従って、目標Lを量子化
する。(当業者は理解しているように、非移動平均予測に基づいたベクトル量子
化手法における、量子化のための目標ベクトルはLであってUではない。)
音声コーダは、そこでステップ510に進む。ステップ510においては、音声
コーダは、上の方程式(3)に従って量子化された、線スペクトル情報パラメー
タのベクトル
【数68】 から、等価移動平均符号ベクトル
【数69】 を計算する。
【0042】 ステップ512において、音声コーダは、過去のP個のフレームの移動平均コ
ードブックベクトルのメモリを更新するために、ステップ506で得られた量子
化された目標
【数70】 、およびステップ510で得られた等価移動平均符号ベクトル
【数71】 を使用する。過去のP個のフレームの移動平均コードブックベクトルの更新され
たメモリは、そこでステップ502において、次のフレームに対する、入力線ス
ペクトル情報ベクトルLM+1の量子化のための目標Uを計算するために、使
用される。
【0043】 このように、音声コーダ内において、線スペクトル情報量子化方法を交錯する
ための新しい方法および装置について記述してきた。当業者は、ここに開示され
た実施例に関して記述された、種々の実例となる、論理ブロックおよびアルゴリ
ズムステップは、ディジタル信号処理装置(DSP)、特定用途向け集積回路(
ASIC)、ディスクリートゲートあるいはトランジスタ論理、たとえば、抵抗
あるいはFIFOなどディスクリートハードウエア部品、一連のファームウエア
命令を実行する処理装置、あるいはいずれかの従来のプログラマブルソフトウエ
アモジュールおよび処理装置を用いて実行され、遂行されるかもしれないことは
理解するであろう。処理装置は、有利にマイクロ処理装置であるかもしれず、し
かし代わりに処理装置はいずれかの従来の処理装置、制御器、マイクロ制御器、
あるいはステートマシンであるかもしれない。ソフトウエアモジュールは、ラン
ダムアクセスメモリ(RAM)、フラッシュメモリ、抵抗器、あるいは当業界で
は知られる、書き込み可能な記憶媒体の他の形態のいずれかに属しうるであろう
。当業者は、さらに、上記を通じて参照されるデータ、命令、指揮、情報、信号
、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場あるいは粒子
、光フィールドあるいは粒子、あるいはこれらの組み合わせのいずれかによって
適切に表現されることを認識するであろう。
【0044】 本発明の望ましい実施例について以上のように示しそして記述してきた。しか
しながらこの技術の当業者にとってここに開示した実施例に対する多くの代替物
をこの発明の精神または範囲から逸脱することなしに形成し得ることは明白であ
ろう。それ故、本発明は上記特許請求の範囲に従う場合を除き、制限がなされる
べきものではない。
【図面の簡単な説明】
【図1】 図1は、無線電話システムのブロック線図である。
【図2】 図2は、音声コーダによって各端において終結された通信チャネルのブロック
線図である。
【図3】 図3は、符号器のブロック線図である。
【図4】 図4は、復号器のブロック線図である。
【図5】 図5は、音声符号化決定過程を説明しているフローチャートである。
【図6】 図6Aは、音声信号振幅対時間のグラフである。 図6Bは、線形予測残留振幅対時間のグラフである。
【図7】 図7は、線スペクトル情報ベクトル量子化に関する二つの方法を交錯する、音
声コーダにより実行される方法ステップを説明しているフローチャートである。
【符号の説明】
10…移動ユニット 12…基地局 14…基地局制御器 16…移動スイッチングセンター 18…公衆交換電話回路網 95…暫定標準 100…第1の符号器 102…通信チャネル 104…復号器 106…第2の符号器 108…通信チャネル 110…第2の復号器 200…符号器 202…モード決定モジュール 204…ピッチ評価モジュール 206…線形予測解析モジュール 208…線形予測解析フィルタ 210…線形予測量子化モジュール 212…残留量子化モジュール 300…復号器 302…線形予測パラメータ復号化モジュール 304…残留復号化モジュール 306…モード復号化モジュール 308…線形予測組立フィルタ
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,UZ,VN,YU, ZA,ZW (72)発明者 マンジュナス、シャラス アメリカ合衆国、カリフォルニア州 92126 サン・ディエゴ、ナンバー5、シ リング・アベニュー 7104 Fターム(参考) 5D045 CB01 CB03 CC07 DA02 DA11 5J064 BA13 BB03 BC11 BC16 BC21 BC27 BC29 BD02

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 フレームを解析し、それに基づき線スペクトル情報符号ベク
    トルを発生するよう形成された線形予測フィルタと、 線形予測フィルタと結合し、非移動平均予測に基づいたベクトル量子化手法を
    使用する第1のベクトル量子化手法で、線スペクトル情報ベクトルをベクトル量
    子化するよう形成されている量子化器とを含み、 量子化器は、さらに第1の手法のために等価移動平均符号ベクトルを計算し、
    音声コーダによって前に処理された、予め設定されたフレーム数に対して符号ベ
    クトルの移動平均コードブックのメモリを、この等価移動平均符号ベクトルで更
    新し、更新された移動平均コードブックのメモリに基づいて第2の手法のための
    目標量子化ベクトルを計算し、量子化された目標符号ベクトルを発生するために
    、移動平均予測に基づいた方法を使用している第2のベクトル量子化手法で目標
    量子化ベクトルをベクトル量子化し、量子化された目標符号ベクトルで移動平均
    コードブックのメモリを更新し、そして量子化された目標符号ベクトルから、量
    子化された線スペクトル情報ベクトルを計算する、音声コーダ。
  2. 【請求項2】 フレームが音声のフレームである請求項1の音声コーダ。
  3. 【請求項3】 フレームが線形予測残留のフレームである請求項1の音声コ
    ーダ。
  4. 【請求項4】 目標量子化ベクトルは、方程式 【数1】 に従って計算され、ここで 【数2】 は、このフレームのすぐ前に処理された予め設定された数のフレームの線スペク
    トル情報パラメータに対応しているコードブック記載内容であり、そして 【数3】 は、 【数4】 であるような、それぞれの加重値である、請求項1の音声コーダ。
  5. 【請求項5】 量子化された線スペクトル情報ベクトルは方程式 【数5】 に従って計算され、ここで 【数6】 は、このフレームのすぐ前に処理された予め設定されたフレーム数の、線スペク
    トル情報パラメータに対応したコードブック記載内容であり、そして 【数7】 は、 【数8】 であるような、それぞれの加重値である、請求項1の音声コーダ。
  6. 【請求項6】 等価移動平均符号ベクトルは、方程式 【数9】 に従って計算され、ここで 【数10】 は、それぞれ 【数11】 であるような、等価移動平均符号ベクトル要素の加重値であり、そしてそこに 【数12】 の初期条件が確立されている、請求項1の音声コーダ。
  7. 【請求項7】 音声コーダが、無線通信システムの加入者ユニット内にある
    、請求項1の音声コーダ。
  8. 【請求項8】 第1の、そして第2の量子化ベクトル量子化手法を用いた、
    フレームの線スペクトル情報ベクトルのベクトル量子化の方法であって、第1の
    手法は非移動平均予測に基づいたベクトル量子化方法を用いており、第2の手法
    は、移動平均予測に基づいたベクトル量子化方法を用いており、 第1のベクトル量子化手法によって線スペクトル情報ベクトルのベクトル量子
    化を行い、 第1の手法のための等価移動平均符号ベクトルを計算し、 音声コーダによって前に処理された、予め設定されたフレーム数に対して、符
    号ベクトルの移動平均コードブックのメモリを等価移動平均符号ベクトルで更新
    し、 更新された移動平均コードブックメモリに基づいて第2の手法のための目標量
    子化ベクトルを計算し、 量子化された目標符号ベクトルを発生するために、第2のベクトル量子化手法
    を用いて目標量子化ベクトルをベクトル量子化し、 移動平均コードブックのメモリを量子化された目標符号ベクトルで更新し、そ
    して 量子化された目標符号ベクトルから量子化された線スペクトル情報ベクトルを
    導出するステップを含む方法。
  9. 【請求項9】 フレームが音声のフレームである請求項8の方法。
  10. 【請求項10】 フレームが線形予測残留のフレームである請求項8の方法
  11. 【請求項11】 計算ステップが、方程式 【数13】 に従って、目標量子化を計算することを含み、ここで 【数14】 は、このフレームのすぐ前に処理された予め設定された数のフレームに関する、
    線スペクトル情報パラメータに対応したコードブック記載内容であり、そして 【数15】 は、 【数16】 であるような、それぞれのパラメータの加重値である、請求項8の方法。
  12. 【請求項12】 導出ステップが、方程式 【数17】 に従って量子化された線スペクトル情報ベクトルを導出することを含み、 【数18】 は、このフレームのすぐ前に処理されたフレームの予め設定された数の線スペク
    トル情報パラメータに対応したコードブック記載内容であり、そして 【数19】 は、 【数20】 であるような、それぞれのパラメータ重みづけである、請求項8の方法。
  13. 【請求項13】 計算ステップが、方程式 【数21】 に従って、等価移動平均符号ベクトルを計算することを含み、ここで、 【数22】 は、それぞれ、 【数23】 であるような、等価移動平均符号ベクトル要素の加重値であり、そしてそこで 【数24】 の初期条件が確立される、請求項8の方法。
  14. 【請求項14】 非移動平均予測に基づいたベクトル量子化方法を用いる第
    1のベクトル量子化手法を用いて、フレームの線スペクトル情報ベクトルをベク
    トル量子化する手段と、第1の手法のための等価移動平均符号ベクトルを計算す
    る手段と、 音声コーダによって前に処理された、予め設定された数のフレームに関する符
    号ベクトルの移動平均コードブックのメモリを、等価移動平均符号ベクトルで更
    新する手段と、 更新された移動平均コードブックのメモリに基づいて、第2の手法のための目
    標量子化ベクトルを計算するする手段と、 量子化された目標符号ベクトルを発生するために、第2のベクトル量子化手法
    で、目標量子化ベクトルをベクトル量子化する手段と、 移動平均コードブックのメモリを、量子化された目標符号ベクトルで更新する
    ための手段と、そして 量子化された目標符号ベクトルから、量子化された線スペクトル情報ベクトル
    を導出する手段とを含む音声コーダ。
  15. 【請求項15】 フレームが音声のフレームである請求項14の音声コーダ
  16. 【請求項16】 フレームが、線形予測残留のフレームである請求項14の
    音声コーダ。
  17. 【請求項17】 目標量子化が、方程式 【数25】 に従って計算され、ここで 【数26】 は、このフレームのすぐ前に処理された予め設定された数のフレームに関する、
    線スペクトル情報パラメータに対応したコードブック記載事項であり、そして 【数27】 は、 【数28】 であるような、それぞれのパラメータの加重値である、請求項14の音声コーダ
  18. 【請求項18】 量子化された線スペクトル情報ベクトルが、方程式 【数29】 に従って導出され、ここで 【数30】 は、このフレームのすぐ前に処理された予め設定された数のフレームに関する、
    線スペクトル情報パラメータに対応したコードブック記載内容であり、そして 【数31】 は、 【数32】 であるような、それぞれのパラメータの加重値である、請求項14の音声コーダ
  19. 【請求項19】 等価移動平均符号ベクトルが方程式 【数33】 に従って計算され、ここで、 【数34】 は、それぞれ、 【数35】 であるような、等価移動平均符号ベクトル要素の加重値であり、そしてそこで 【数36】 の初期条件が確立される、請求項14の音声コーダ。
  20. 【請求項20】 音声コーダが、無線通信システムの加入者ユニット内にあ
    る、請求項14の音声コーダ。
JP2001511670A 1999-07-19 2000-07-19 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置 Expired - Lifetime JP4511094B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/356,755 1999-07-19
US09/356,755 US6393394B1 (en) 1999-07-19 1999-07-19 Method and apparatus for interleaving line spectral information quantization methods in a speech coder
PCT/US2000/019672 WO2001006495A1 (en) 1999-07-19 2000-07-19 Method and apparatus for interleaving line spectral information quantization methods in a speech coder

Publications (3)

Publication Number Publication Date
JP2003524796A true JP2003524796A (ja) 2003-08-19
JP2003524796A5 JP2003524796A5 (ja) 2007-09-13
JP4511094B2 JP4511094B2 (ja) 2010-07-28

Family

ID=23402819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001511670A Expired - Lifetime JP4511094B2 (ja) 1999-07-19 2000-07-19 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置

Country Status (12)

Country Link
US (1) US6393394B1 (ja)
EP (1) EP1212749B1 (ja)
JP (1) JP4511094B2 (ja)
KR (1) KR100752797B1 (ja)
CN (1) CN1145930C (ja)
AT (1) ATE322068T1 (ja)
AU (1) AU6354600A (ja)
BR (1) BRPI0012540B1 (ja)
DE (1) DE60027012T2 (ja)
ES (1) ES2264420T3 (ja)
HK (1) HK1045396B (ja)
WO (1) WO2001006495A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011528807A (ja) * 2008-07-18 2011-11-24 クゥアルコム・インコーポレイテッド デジタル信号の圧縮または解凍のための方法、システムおよび装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
DE60128677T2 (de) * 2000-04-24 2008-03-06 Qualcomm, Inc., San Diego Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US20040128511A1 (en) * 2000-12-20 2004-07-01 Qibin Sun Methods and systems for generating multimedia signature
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
WO2003051031A2 (en) * 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
US7289459B2 (en) * 2002-08-07 2007-10-30 Motorola Inc. Radio communication system with adaptive interleaver
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
UA91853C2 (ru) * 2005-04-01 2010-09-10 Квелкомм Инкорпорейтед Способ и устройство для векторного квантования спектрального представления огибающей
JP4981122B2 (ja) * 2006-03-21 2012-07-18 フランス・テレコム 抑制されたベクトル量子化
US7463170B2 (en) * 2006-11-30 2008-12-09 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
US7465241B2 (en) * 2007-03-23 2008-12-16 Acushnet Company Functionalized, crosslinked, rubber nanoparticles for use in golf ball castable thermoset layers
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
CN102982807B (zh) * 2012-07-17 2016-02-03 深圳广晟信源技术有限公司 用于对语音信号lpc系数进行多级矢量量化的方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127990A (ja) * 1995-10-26 1997-05-16 Sony Corp 音声符号化方法及び装置
JP2002527777A (ja) * 1998-10-06 2002-08-27 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 音声信号標本値の符号化または復号化のための方法並びに符号化器ないし復号化器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
AU671952B2 (en) 1991-06-11 1996-09-19 Qualcomm Incorporated Variable rate vocoder
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (ja) 1994-08-05 1996-03-01 Qualcomm Inc
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127990A (ja) * 1995-10-26 1997-05-16 Sony Corp 音声符号化方法及び装置
JP2002527777A (ja) * 1998-10-06 2002-08-27 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 音声信号標本値の符号化または復号化のための方法並びに符号化器ないし復号化器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011528807A (ja) * 2008-07-18 2011-11-24 クゥアルコム・インコーポレイテッド デジタル信号の圧縮または解凍のための方法、システムおよび装置

Also Published As

Publication number Publication date
KR20020033737A (ko) 2002-05-07
BR0012540A (pt) 2004-06-29
JP4511094B2 (ja) 2010-07-28
AU6354600A (en) 2001-02-05
EP1212749B1 (en) 2006-03-29
BRPI0012540B1 (pt) 2015-12-01
ATE322068T1 (de) 2006-04-15
DE60027012D1 (de) 2006-05-18
KR100752797B1 (ko) 2007-08-29
HK1045396A1 (en) 2002-11-22
CN1145930C (zh) 2004-04-14
HK1045396B (zh) 2005-02-18
ES2264420T3 (es) 2007-01-01
CN1361913A (zh) 2002-07-31
DE60027012T2 (de) 2007-01-11
WO2001006495A1 (en) 2001-01-25
US6393394B1 (en) 2002-05-21
EP1212749A1 (en) 2002-06-12

Similar Documents

Publication Publication Date Title
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
US7426466B2 (en) Method and apparatus for quantizing pitch, amplitude, phase and linear spectrum of voiced speech
US6324505B1 (en) Amplitude quantization scheme for low-bit-rate speech coders
JP4861271B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
US6324503B1 (en) Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6330532B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
JP4511094B2 (ja) 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置
US6434519B1 (en) Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100506

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4511094

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term