JP2001500284A - 改良した調波音声符号器を備えた送信機 - Google Patents
改良した調波音声符号器を備えた送信機Info
- Publication number
- JP2001500284A JP2001500284A JP11508355A JP50835599A JP2001500284A JP 2001500284 A JP2001500284 A JP 2001500284A JP 11508355 A JP11508355 A JP 11508355A JP 50835599 A JP50835599 A JP 50835599A JP 2001500284 A JP2001500284 A JP 2001500284A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- speech
- signal
- audio signal
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000005259 measurement Methods 0.000 claims abstract description 5
- 230000005236 sound signal Effects 0.000 claims description 47
- 238000001228 spectrum Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 abstract description 10
- 230000015572 biosynthetic process Effects 0.000 abstract description 9
- 230000005540 biological transmission Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 238000005311 autocorrelation function Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
調波音声符号器(16)において、符号化すべき音声信号は、LPCパラメータコンピュータ(30)、ピッチ値及び利得値によって決定される複数のLPCパラメータで表される。この音声符号器は、粗いピッチを決定する(粗い)ピッチ推定器(38)と、この粗いピッチ値から精密なピッチを決定するための精密なピッチコンピュータ(32)とを有する。この精密なピッチ値の決定は、合成音声信号の表現と本来の音声信号の表現との間に最小誤り測定値を生じるようにして精密なピッチ値が選択される合成方式により解析において実施される。
Description
【発明の詳細な説明】
改良した調波音声符号器を備えた送信機
技術分野
本発明は、音声符号器を備えた送信機に関するものであり、前記音声符号器は
、音声信号から複数の線形予測係数を決定する解析手段を含み、前記解析手段は
、前記音声信号の基本周波数を決定するピッチ測定手段を含み、当該解析手段は
、更に、前記音声信号を表わす複数の調波関連正弦信号の振幅及び周波数を前記
複数の線形予測係数及び前記基本周波数から決定するのに配される。
本発明は、音声符号器、音声符号化方法、及び前記方法を実施するコンピュー
タプログラムを有する実媒体にも関する。
背景技術
序文に従う送信機は、ヨーロッパ特許公報第EP 259,950号から既知である。
上記送信機及び音声符号器は、音声信号が制限された送信容量を備えた送信媒
体を通じて送信されるべき、又は制限された記憶容量を備えた記憶メディアに記
憶されるべきアプリケーションに使用される。このようなアプリケーションの実
施例は、インターネットにおける音声信号の送信、携帯電話から基地局へ及びそ
の反対への音声信号の送信、CD−ROM、ソリッドステートメモリ又はハード
ディスクドライブにおける音声信号の記憶である。
音声符号器の異なる動作原理は、適度なビットレートで妥当な音声品質を達成
するよう試みられてきた。これらの動作原理の1つにおいて、音声信号が複数の
調波関連正弦信号によって表される。前記送信機は、前記正弦信号の基本周波数
を表す当該音声信号のピッチを決定する解析手段を備えた音声符号器を有する。
この解析手段は、前記複数の正弦信号の振幅を決定するためにも配される。
前記複数の正弦信号の振幅が予測係数を決定し、前記予測係数から周波数スペ
クトルを計算し、前記周波数スペクトルを前記ピッチ周波数でサンプリングする
ことによって得られる。
前記既知の送信機に関する問題点は、復元された音声信号の品質が期待される
ものよりも低いということである。
発明の開示
本発明の目的は、復元音声の品質の改良をもたらすようにした序文に係る送信
機を設けることである。
従って、本発明に係る送信機は、前記解析手段が、前記音声信号の表現と前記
複数の調波関連正弦信号の表現との間における測定値を最小にするために、前記
複数の調波関連信号の基本周波数を同調するためのピッチ同調手段を有し、この
送信機が、前記振幅及び前記基本周波数の表現を送信する送信手段を有すること
を特徴とする。
本発明は、解析手段によって決定される正弦信号の振幅と、ピッチ決定手段に
よって決定されるピッチとの組合せが、音声信号の最適な表現を構成するもので
はないという認識に基づくものである。当該ピッチを合成解析法(analysis-by-s
ynthesis)のようなやり方でチューニングすることによって、符号化される音声
信号のビットレートを増大させることなく、復元される音声信号の品質の向上を
達成することが可能になる。
この合成解析法は、当該本来の音声信号を、振幅及び実際のピッチ値に基づい
て復元される音声信号と比較することによって実行される。この本来の音声信号
のスペクトルを決定して、これを正弦信号の振幅及びピッチ値から決定されるス
ペクトルと比較することも可能である。
本発明の実施例は、複数の調波関連音声信号の振幅及び周波数の決定が、実質
的に量子化されない予測係数に基づき、前記振幅の表現が、量子化された予測係
数と、この量子化された予測係数及び前記基本周波数に基づいて決定される利得
因子とを有することを特徴とする。
実験から合成解析法をこの量子化された予測係数に基づいて実行することは、
前記復元音声に望まない人工物を生じることが明らかとなる。次いで、実行され
た実験は、この合成解析法において前記量子化されない予測係数を用いて、当該
量子化された予測係数及び(精密な)基本周波数から前記利得因子を計算するこ
とによって、これらの人工物が回避されることを示す。
本発明の更なる実施例は、前記解析手段が、少なくとも初期ピッチ値を前記ピ
ッチ同調手段に提供する初期ピッチ決定手段を有することを特徴とする。
初期ピッチ決定手段を用いることによって、最適なピッチ値に接近する合成解
析法のための初期値を決定することを可能にする。これは、前記最適なピッチ値
を見つけるのに必要とされる計算の量を減少させることになる。
ここで、本発明は、以下のような図面を参照して説明されることになる。
図面の簡単な説明
第1図は、本発明が用いられた送信システムである。
第2図は、本発明に係る音声符号器4である。
第3図は、本発明に係る有声音の音声符号器16である。
第4図は、第3図に係る有声音の音声符号器16に使用されるLPC計算手段
30である。
第5図は、第3図に係る音声符号器16に使用されるピッチ同調手段である。
第6図は、第2図に係る音声符号器に使用される、無声音の音声符号器14で
ある。
第7図は、第1図に係るシステムに使用される音声復号器14である。
第8図は、音声復号器14に使用される有声音の音声復号器94である。
第9図は、有声音の音声復号器94における多数のポイントに存在する信号に
関するグラフである。
第10図は、音声復号器14に使用される無声音の音声復号器96である。
発明を実施するための最良の形態
第1図に係る送信システムにおいて、音声信号は送信機2の入力部に加えられ
る。この送信機2において、前記音声信号は、音声符号器4で符号化される。こ
の音声符号器4の出力部で、この符号化された音声信号は送信手段6に送られる
。この送信手段6は、チャネルコーディング、インターリービング及びコード化
された音声信号の変調を行うように配される。
送信手段6の出力信号は、前記送信機の出力部に送られ、送信媒体8を介して
受信機5に伝達される。受信機5において、このチャネルの出力信号は、入力手
段7に送られる。これら入力手段7は、例えば同調及び復調のようなRF処理、
(適応可能ならば)デインターリービング及びチャネル復号を供給する。入力手
段7の出力信号は、その入力信号を復元される音声信号に変換する音声復号器9
に送られる。
第2図に係る音声符号器4の入力信号ss[n]は、この入力信号から好まし
くないDCオフセットを削除するために、DCノッチフィルタ10によってフィ
ルタ処理される。前記DCノッチフィルタは、15Hzのカットオフ周波数(−
3dB)を有する。このDCノッチフィルタ10の出力信号は、バッファ11の
入力部に加えられる。このバッファ11がDCフィルタ処理された400個の音
声サンプルのブロックを、本発明に係る有声音の音声符号器16に与える。40
0個のサンプルの前記ブロックは、10msの音声の5フレーム(各80個のサ
ンプル)を有する。それは、直ちに符号化すべきフレーム、2つの先行するフレ
ーム及び後続する2つのフレームを有する。このバッファ11は各フレーム間隔
において、80個のサンプルの最新の入力されたフレームを200Hzの高域フ
ィルタ12に送る。この高域フィルタ12の出力部は、無声音の音声符号器14
の入力部と、有声音/無声音検出器28の入力部とに接続される。高域フィルタ
12は、360個のサンプルのブロックを有声音/無声音検出器28に供給し、
(音声符号器4が5.2kbit/secモードで動作する場合には)160個
のサンプルのブロック、又は(音声符号器4が3.2kbit/secモードで
動作する場合には)240個のサンプルのブロックを無声音の音声符号器14に
供給する。上述されたサンプルの異なるブロックとバッファ11の出力との間の
関係を下の表に示す。 有声音/無声音検出器28は、現在のフレームが有声音又は無声音の音声を有
するかを決定し、その結果を有声音/無声音フラグとして示す。このフラグはマ
ルチプレクサ22、無声音の音声符号器14及び有声音の音声符号器16に送ら
れる。有声音/無声音フラグの値に依存して、有声音の音声符号器16又は無声
音の音声符号器14が活性化される。
有声音の音声符号器16において、前記入力信号は、調波関係である複数の正
弦信号として表される。この有声音の音声符号器の出力は、ピッチ値、利得値及
び16個の予測パラメタの表現を供給する。これらピッチ値及び利得値は、マル
チプレクサ22の対応する入力部に加えられる。
5.2kbit/secモードにおいて、LPC計算は10ms毎に行われる
。3.2kbit/secにおいて、LPCの計算は、無声音から有声音へ又は
その逆への移行が起こるときを除いて、20ms毎に行われる。上記移行が起こ
る場合、3.2kbit/secモードにおいて、前記LPC計算も10mse
c毎に行われる。
前記有声音の音声符号器の出力部でのLPC係数がハフマン符号器(Huffman e
ncoder)24で符号化される。このハフマン符号化配列の長さは、このハフマン
符号器24内の比較器によって、対応する入力配列の長さと比較される。このハ
フマン符号化配列の長さがこの入力配列の長さよりも長い場合、コード化されな
い配列を送信することを決定する。他の状況では、ハフマン符号化配列を送信す
ることを決定する。前記決定はマルチプレクサ26及びマルチプレクサ22に加
えられる「ハフマンビット(Huffman bit)」によって示される。このマルチプレ
クサ26がハフマン符号化配列又は入力配列を「ハフマンビット」の値に依存し
てマルチプレクサ22に送るように配される。マルチプレクサ26と組み合わせ
てハフマンビットを使用することは、前記予測係数の表現の長さが既定値を超過
しないことを保証するという利点を持つ。「ハフマンビット」及びマルチプレク
サ26を用いることなく、ハフマン符号化配列の長さが、限定された数のビット
がLPC係数の送信のために蓄えられる送信フレームにこれ以上割り込めない程
度に入力配列の長さを超過することが起こる。
無声音の音声符号器14において、利得値及び6個の予測係数が無声音の音声
信号を表すのに決定される。これら6個のLPC係数がその出力部でハフマン符
号化配列及び「ハフマンビット」を表すハフマン符号器18によって符号化され
る。このハフマン符号化配列及びハフマン符号器18の入力配列が、この「ハフ
マンビット」によって制御されるマルチプレクサ20に加えられる。ハフマン符
号器18とマルチプレクサ20との組み合わせの動作がハフマン符号器24とマ
ルチプレクサ26との結合の動作と同じである。
マルチプレクサ20の出力信号及びハフマンビットは、マルチプレクサ22の
対応する入力部に加えられる。このマルチプレクサ22は、有声音/無声音検出
器28の決定に依存して、符号化された有声音の音声信号又は符号化された無声
音の音声信号を選択するために配される。このマルチプレクサ22の出力部で、
この符号化された音声信号が利用可能となる。
第3図に従う有声音の音声符号器16において、本発明に係る解析手段はLP
Cパラメタコンピュータ(LPC Parameter Computer)30、精密なピッチコンピュ
ータ(Rehned Pitch Computer)32及びピッチ推定器(Pitch Estimator)38によ
って構成される。音声信号S[n]は、このLPCパラメタコンピュータ30の入
力部に加えられる。このLPCパラメタコンピュータ30は、予測係数a[i]と
、このa[i]を量子化、コード化及び復号化した後に得られる量子化予測係数a
q[i]
と、LPCコードC[i]とを決定し、ここでiは0から15の値を持つ。
本発明の概念に係るピッチ決定手段は、ここではピッチ推定器38である初期
ピッチ決定手段と、ここではピッチ領域コンピュータ(Pitch Range Computer)3
4及び精密なピッチコンピュータ32であるピッチ同調手段とを有する。このピ
ッチ推定器38が前記ピッチ同調手段で試されるべきピッチ値を決定するための
ピッチ領域コンピュータ34に用いられる粗いピッチ値を決定し、このピッチ同
調手段は最終的なピッチ値を決めるための更なる精密なピッチコンピュータ32
と呼ばれる。このピッチ推定器38は、多数のサンプルで説明される粗いピッチ
周期を供給する。前記精密なピッチコンピュータ32に用いるべきピッチ値は、
以下のテーブルに従って粗いピッチ周期からピッチ領域コンピユータ34によっ
て決定される。
振幅スペクトルコンピュータ36において、ウインドウ処理される音声信号SHAM
が式(1)に従う信号S[i]から決定される。
(1)において、wHAM[i]は式(2)に等しい。
このウインドウ処理される音声信号はwHAM[i]は、512ポイントFFTを
用いて
周波数ドメインに変換される。前記変換によって得られるこのスペクトルSWは
式(3)に等しい。
精密なピッチコンピュータ32に使用すべき振幅スペクトルが式(4)に従っ
て計算される。
この精密なピッチコンピュータ32は、前記LPCパラメタコンピュータ30
によって供給されるaパラメタ及び粗いピッチ値から精密なピッチ値を決定し、
この値は式(4)に従う振幅スペクトルと、その振幅が前記精密なピッチ周期で
LPCスペクトルをサンプリングすることによって決定される複数の調波関係に
ある正弦信号を有する信号の振幅スペクトルとの間で最小の誤り信号となる。
利得コンピュータ40において、目標スペクトルに正確に整合するのに最適な
利得は、精密なピッチコンピュータ32に行われたような量子化されていないa
パラメタの代わりに、量子化されたaパラメタを用いた再合成音声信号のスペク
トルから計算される。
有声音の音声符号器40の出力部で、16個のLPCコード、精密なピッチ及
び利得コンピュータ40で計算される利得が利用可能となる。LPCパラメタコ
ンピュータと精密なピッチコンピュータ32の動作を以下により詳細に説明する
。
第4図に従うLPCコンピュータ30において、ウインドウの操作は、ウイン
ドウ処理器50によって信号s[n]上で実行される。本発明の1つの特徴に従っ
て、解析長さは前記有声音/無声音フラグの値に依存する。5.2kbit/s
ecモードにおいて、このLPC計算が10msec毎に実行される。3.2k
bit/secモードにおいて、LPC計算は、有声音から無声音へ又はその逆
への移行中を除いて、20msec毎に実行される。上記移行が存在する場合、
LP
C計算は10msec毎に実行される。
以下の表において、予測係数の決定に関係するサンプル数が与えられる。 5.2kbit/secの場合と移行が存在する3.2kbit/secの場
合におけるウインドウに関しては、式(5)に書くことができる。
前記ウインドウ処理される音声信号い関しては、以下の式であるとわかる。
3.2kbit/sの場合において移行が存在しない場合、80個のサンプル
のフラットトップ部がウインドウの中央に導入され、これによってサンプル12
0で始まり、サンプル360の前に終了する240個のサンプルにわたるように
前記ウインドウを延在させる。このやり方で、ウインドウW'HAMは式(7)に従
って得られる
前記ウインドウ処理される音声信号に関して、以下のように書くことができる
。
自己相関関数コンピュータ(Autocorrelation Function Computer)58は、前
記ウインドウ処理音声信号の自己相関関数Rssを決定する。計算すべき相関係数
の数は。予測係数+1の数に等しい。有声音の音声フレームが存在する場合、計
算すべき自己相関係数の数は17である。無声音の音声フレームが存在する場合
、計算すべき自己相関係数の数は7である。有声音又は無声音の音声フレームの
存在が、前記有声音/無声音フラグによって自己相関関数コンピュータ58に信
号が送られる。
この自己相関係数は、当該自己相関係数によって示されるスペクトルのスペク
トル平滑化(spectral smoothing)を幾らか得るために、いわゆる遅れウインドウ
(lag-window)でウインドウ処理される。この平滑化された自己相関係数ρ[i]が
式(9)に従って計算される。
式(9)において、fuは46.4Hzの値を持つスペクトル平滑化定数であ
る。ウインドウ処理される自己相関値ρ[i]は、k[l]からk[P]への反射係数を
帰納法で計算するシューア帰納モジュール(Schur recursion module)62に送る
。このシューア帰納は当業者には十分公知である。
変換器66において、P反射係数ρ[i]は、第3図における精密なピッチコン
ピュータ32に使用するaパラメタに変換される。量子化器64において、反射
係数はログエリア比(Log Area Ratios)に変換され、これらログエリア比は略一
様に量子化される。結果生じたLPCコードC[1]…C[P]は、更なる送信のため
のLPCパラメタコンピュータの出力部に送られる。
局部復号器52において、これらLPCコードC[1]…C[P]は、反射係数復元
器
aパラメタ変換器56に対する反射係数によって(量子化された)aパラメタに
変換される。
この局部復号は、音声符号器4及び音声復号器14で利用可能な同様のaパラ
メタを持つために実行される。
第5図に係る前記精密なピッチコンピュータ32において、精密なピッチコン
ピュータ32で使用すべき候補ピッチ値をピッチ領域コンピュータ34から入力
されるように、ピッチ周波数候補選択器70は開始値及びステップサイズを候補
番号から決定する。これら候補の各々に対し、前記ピッチ周波数候補選択器70
が基礎周波数fo,iを決定する。
この候補周波数fo,iを用いて、LPC係数によって開示されるスペクトル包
絡線は、スペクトル包絡線サンプラ72によって、調波箇所でサンプル化される
。
i番目の候補fo,iのk番目の調波の振幅であるmi,kに対し、以下のように書く
ことができる。
式(10)において、A(z)は以下の式に等しい。
変化する。
式(12)を実部と虚部とに分割することで、振幅mi,kは、式(13)に従
って得られる。
ここで、R、Iは
(7)に従う160ポイントのハミングウインドウの8192ポイントのFFT
むことで決定される。前記8192ポイントのFFTが事前に計算され、その結
果がROMに記憶されることが観察される。畳み込み処理(convolving process)
において、前記候補スペクトルは256ポイント以上の無駄な計算を行い、基準
スペクトルの256ポイントと比較されなければならなので、ダウンサンプリン
グ
式(16)はピッチ候補iに関する、振幅スペクトルの一般的形状のみを与える
に従うMSE利得計算器78によって計算される利得因子giによって補正され
なければならない。
減算器84が振幅スペクトルコンピュータ36によって決定される目標スペクト
ルの係数と乗算器82の出力信号と間の差を計算する。その結果、加算平方(sum
ming square)は式(18)に従う平方された誤り信号Eiを計算する。最小値となる候補基礎周波数fo,iは、精密な基礎周波数又は精密なピッチとし
て選択される。本実施例に係る符号器において、合計368個のピッチ周期が、
符号化するのに9ビットを必要とする。このピッチは、音声符号器のモードに関
係なく、10msec毎に更新される。第3図に係る利得計算器40において、
復号器に送信すべき利得は、利得giに関して上述されたのと同じやり方で計算
されるが、ここで量子化されたaパラメタは、前記利得giを計算する時に使用
される量子化されていないaパラメタの代わりに使用される。復号器に送信すべ
き利得因子は、6ビットに非線形に量子化される。例えばgiの小さい値に対し
小さな量子化ステップが使用され、giの大きな値に対し大きな量子化ステップ
が使用される。
第6図に従う無声音の音声符号器14において、LPCパラメタコンピュータ
82の動作は、第4図に従うLPCパラメタコンピュータ30の動作と同じであ
る。このLPCパラメタコンピュータ82は、前記LPCパラメタコンピュータ
30によって動作されるように、本来の音声信号の代わりに、高域フィルタ処理
された音声信号で動作する。さらに、LPCコンピュータ82の予測順序は、L
PCパラメタピッチコ
ンピュータ30に使用される16ではなく6である。
時間ドメインウインドウ処理器84が式(19)に従うハミングウインドウ処
理される音声信号を計算する。
RMS値コンピュータ(RMS value computer)86において、音声フレームの振
幅の平均値gUVは、式(20)に従って計算される。
復号器に送信すべき利得因子gUVは、5ビットに非線形に量子化される。例え
ばgUVの小さい値に対し小さな量子化ステップが用いられ、gUVの大きな値に対
し大きな量子化ステップが用いられる。励起パラメタが無声音の音声符号器14
によって決定されない。
第7図に従う音声復号器14において、ハフマン符号化されたLPCコード及
び有声音/無声音フラグがハフマン復号器90に加えられる。有声音/無声音フ
ラグが無声音の信号を示す場合、このハフマン復号器90は、前記ハフマン符号
器18で使用されたハフマン表に従って、ハフマン符号化されたLPCコードを
復号するために配される。前記有声音/無声音フラグが有声音の信号を示す場合
、このハフマン復号器90は、前記ハフマン符号器24で使用されたハフマン表
に従って、ハフマン符号化されたLPCコードを復号するために配される。この
ハフマンビットの値に依存して、入力されたLPCコードは、ハフマン復号器9
0によって復号し、又はデマルチプレクサ92に直接送られる。前記利得値及び
入力された精密なピッチ値もデマルチプレクサ92に送られる。
前記有声音/無声音フラグが有声音の音声フレームを示す場合、精密なピッチ
、利得及び16個のLPCコードが調波音声合成器94に送られる。この有声音
/
無声音フラグが無声音の音声フレームを示す場合、利得及び6個のLPCコード
が無声音の音声合成器96に送られる。この調波音声合成器94の出力部での合
有声音のモードにおいて、マルチプレクサ98は、重複及び加算合成ブロック
において、マルチプレクサ98は、重複及び加算合成ブロック100の入力部に
ク100において、有声音及び無声音の音声セグメントを部分的に重複すること式(21)で書くことが可能である。
式(21)において、Nsは音声フレームの長さであり、vk-1は先行する音声
フレームに対する有声音/無声音フラグであり、vkは現在の音声フレームに対
する有声音/無声音フラグである。
このポストフィルタはフォルマント範囲外でノイズを抑制することで知覚される
音声品質を向上するために配される。
第8図に従う有声音の音声復号器94において、デマルチプレクサ92から入
力された符号化ピッチが復号され、ピッチ復号器104によってピッチ周期に変
換される。ピッチ復号器104で決定される前記ピッチ周期は、位相合成器10
6の入力部、調波発振器バンク(Harmonic Oscillator Bank)108の入力部及び
LPCスペクトル包絡線サンプラ110の第1入力部に加えられる。
デマルチプレクサ92から入力されるLPC係数は、LPC復号器112によ
って復号される。このLPC係数を復号する方法は、現在の音声フレームが有声
音の音声又は無声音の音声を含むかに依存する。従って、前記有声音/無声音フ
ラグがLPC復号器112の第2入力部に加えられる。このLPC復号器が量子
化されたaパラメタをLPCスペクトル包絡線サンプラ110の第2入力部に送
る。このLPCスペクトル包絡線サンプラ112の動作は、同様の動作が精密な
ピッチコンピュータ32で行われるので、式(13)、(14)及び(15)に
よって説明される。
位相合成器106は、音声信号を表すL信号のi番目の正弦信号の位相ψk[i]
を計算するように配される。この位相ψk[i]は、例えばi番目の正弦信号が1つ
のフレームから次のフレームへ絶え間ないように選択される。この有声音の音声
信号は、重複するフレームを結合することによって合成され、これらフレームの
各々は160個のウインドウ処理されるサンプルを有する。第9図におけるグラ
フ118及びグラフ122から見られるように、2つの隣接するフレーム間に5
0%の重複が存在する。これらグラフ118及び122において使用されるウイ
ンドウが一点鎖線で示される。この位相合成器は、重複が最もインパクトが大き
い位置で連続する位相を供給するように配される。ここで用いられるウインドウ
関数において、この位置はサンプル119である。現在のフレームの位相ψk[i]
に対し、以下の式が書かれる。
現在説明される音声符号器において、Nsの値は160に等しい。正に初期の
有声音の音声フレームに対し、ψk[i]の値が事前に決められた値に初期化される
。位相ψk[i]は無声音の音声フレームが入力されても常に更新される。前記場合
において、fo,kは50Hzに設定される。
われる。
Windowing block)114におけるハニングウインドウを用いてウインドウ処理さ
れる。このウインドウ処理された信号は、第9図のグラフ120に示される。こ
の信号てウインドウ処理される。このウインドウ処理された信号は、第9図のグラフ1
24に示される。時間ドメインウインドウ処理ブロック144の出力信号は、上
述のウインドウ処理された信号を加算することで得られる。この出力信号は、第
9図のグラフ126に示される。利得復号器118が利得値gvをその入力信号
から得て、時間ド
るために、信号基準化ブロック116によって前記利得因子gvで基準化される
。
無声音の音声合成器96において、LPCコード及び有声音/無声音フラグが
LPC復号器130に加えられる。このLPC復号器130は、LPC合成フィ
ルタ134に複数の6aパラメタを供給する。ガウスのホワイトノイズ製造器1
32の出力部が前記LPC合成フィルタ143の入力部に接続される。このLP
C合成フィルタ134の出力信号は、時間ドメインウインドウ処理ブロック14
0におけるハニングウインドウによってウインドウ処理される。
無声音の利得復号器136は、現在の無声音のフレームが所望するエネルギー
を表
持つ音声信号を得るために決定される。この基準化因子に対し、式(24)が書
かれる。
現在説明される音声符号化システムは、低いビットレート、即ち高い音声品質
を必要とするために改良される。低いビットレートを必要とする音声符号化シス
テムの実施例は、2kbit/secの符号化システムである。このようなシス
テムは、有声音の音声に使用される予測係数の数を16から12に減少し、予測
係数、利得及び精密なピッチの差分符号化を用いることで得られる。差分コード
化は、符号化すべきデータが個々に符号化されず、後続するフレームからの対応
するデータ間の差分のみを送信することを意味する。有声音から無声音へ又はそ
の逆への移行で、最初の新しいフレームに全ての係数が復号化に対する開始値を
供給するために個々に符号化される。
6kbit/sのビットレートで向上する音声品質を持つ音声コード器を得る
ことを可能にもする。この改良は複数の調波関係の正弦信号のうち最初の8つの
調波の位相の決定である。この位相ψ[i]は式(25)に従って計算される。
ここで、θi=2πfo・iである。R(θi)及びI(θi)は式(26)及び(27)
に等しい。
そのようにして得られた8個の位相ψ[i]は、6ビットに一様に量子化され、
出力ビットストリームに含まれる。
6kbit/secの符号器における更なる改良は、無声音のモードにおける
補足的な利得値の送信である。利得が1フレーム毎の代わりに、普通2msec
毎で送信される。移行直後の最初のフレームにおいて、10個の利得値が送信さ
れ、その内5つが現在の無声音のフレームを示し、その内5つが無声音の音声符
号器によって処理される先行する有声音のフレームを示す。これら利得は4ms
ecの重複ウインドウから決定される。
LPC係数の数は12であり、利用可能な差分符号化が利用されることが明ら
かとなる。
Claims (1)
- 【特許請求の範囲】 1.音声符号器を具備する送信機であって、前記音声符号器は、音声信号から 複数の線形予測係数を決定する解析手段を有し、前記解析手段は、前記音声 信号の基本周波数を決定するピッチ決定手段を有し、当該解析手段は更に、 前記音声信号を表す複数の調波関連正弦信号の振幅及び周波数を前記複数の 線形予測係数及び前記基本周波数から決定するために配されている送信機に おいて、前記解析手段が、前記音声信号の表現と前記複数の調波関連正弦信 号の表現との間の差分測定値を最小にするために、前記複数の調波関連信号 の前記基本周波数を同調するピッチ同調手段を有し、前記送信機が、前記振 幅及び前記基本周波数の表現を送信する送信手段を有することを特徴とする 音声符号器を具備する送信機。 2.請求項1に記載の送信機において、複数の調波関連音声信号の前記振幅及 び前記周波数の決定は、実質的に量子化されていない予測係数に基づいてい て、前記振幅の表現が量子化された予測係数と、当該量子化された予測係数 及び前記基本周波数に基づいて決定される利得因子とを有することを特徴と する送信機。 3.請求項1又は2に記載の送信機において、前記解析手段が、少なくとも初 期ピッチ値を前記ピッチ同調手段に提供する初期ピッチ決定手段を有するこ とを特徴とする送信機。 4.先行する請求項の一項に記載の送信機において、前記音声符号器は、前記 音声信号の周波数スペクトルを決定するスペクトル解析手段を有し、当該ピ ッチ同調手段が、前記振幅及び前記基本周波数から得られたスペクトルと前 記音声信号の周波数スペクトルのスペクトルとの間の差分を最小化するよう に配されることを特徴とする送信機。 5.音声信号から複数の線形予測係数を決定する解析手段を有する音声符号器 であって、前記解析手段は、前記音声信号の基本周波数を決定するピッチ決 定手段を有し、前記解析手段は更に、前記音声信号を表す複数の調波関連正 弦信号の振幅及び周波数を前記複数の線形予測係数及び前記基本周波数から 決定するために配されている音声符号器において、前記解析手段が、前記音 声信号の表現と前記複数の調波関連正弦信号の表現との間における差分測定 値を最小にするために、前記複数の調波関連信号の基本周波数を同調するピ ッチ同調手段を有することを特徴とする音声符号器。 6.請求項5に記載の音声符号器において、前記解析手段が少なくとも初期ピ ッチ値を前記ピッチ同調手段に提供する初期ピッチ決定手段を有することを 特徴とする音声符号器。 7.請求項5又は6に記載の音声符号器において、前記音声符号器が、前記音 声信号の周波数スペクトルを決定するスペクトル解析手段を有し、前記ピッ チ同調手段が、前記振幅及び基本周波数から得られたスペクトルと前記音声 信号の周波数スペクトルのスペクトルとの間の差分を最小にするように配さ れることを特徴とする音声符号器。 8.音声信号から複数の線形予測係数を決定し、前記音声信号の基本周波数を 決定し、前記音声信号を表す複数の調波関連正弦信号の振幅及び周波数を前 記複数の線形予測係数及び前記基本周波数から決定する音声符号化方法にお いて、前記方法が前記音声信号の表現と前記複数の調波関連正弦信号の表現 との間の差分測定値を最小にするために、前記複数の調波関連信号の前記基 本周波数を同調することを特徴とする音声符号化方法。 9.請求項8に記載の方法において、前記方法が、少なくとも初期ピッチ値を 前記ピッチ同調手段に提供することを特徴とする方法。 10.請求項8又は9に記載の方法において、前記方法が、前記音声信号の周波 数スペクトルを決定し、当該方法が、前記振幅及び基本周波数から得られた スペクトルと当該音声信号の前記周波数スペクトルのスペクトルとの間の差 分を最小にすることを特徴とする方法。 11.音声信号から複数の線形予測係数を決定し、前記音声信号の基本周波数を 決定し、前記音声信号を表す複数の調波関連正弦信号の振幅及び周波数を前 記複数の線形予測係数及び前記基本周波数から決定する音声符号化方法を実 行するコンピュータプログラムを有する実媒体において、前記方法が、前記 音声信号の表現と前記複数の調波関連正弦信号の表現との間の差分測定値を 最小にするために、前記複数の調波関連信号の基本周波数を同調させること を特徴とする音声符号化方法を実行するコンピュータプログラムを有する実 媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP97202163 | 1997-07-11 | ||
EP97202163.8 | 1997-07-11 | ||
PCT/IB1998/000871 WO1999003095A1 (en) | 1997-07-11 | 1998-06-05 | Transmitter with an improved harmonic speech encoder |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001500284A true JP2001500284A (ja) | 2001-01-09 |
Family
ID=8228541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11508355A Withdrawn JP2001500284A (ja) | 1997-07-11 | 1998-06-05 | 改良した調波音声符号器を備えた送信機 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6078879A (ja) |
EP (1) | EP1002312B1 (ja) |
JP (1) | JP2001500284A (ja) |
KR (1) | KR100578265B1 (ja) |
CN (1) | CN1231050A (ja) |
DE (1) | DE69836081D1 (ja) |
WO (1) | WO1999003095A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
KR20010101924A (ko) * | 1999-12-01 | 2001-11-15 | 요트.게.아. 롤페즈 | 사운드 신호들을 코딩하고 디코딩하는 방법 및 시스템 |
CN1193347C (zh) * | 2000-06-20 | 2005-03-16 | 皇家菲利浦电子有限公司 | 正弦编码 |
JP3469567B2 (ja) * | 2001-09-03 | 2003-11-25 | 三菱電機株式会社 | 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法 |
US8024181B2 (en) * | 2004-09-06 | 2011-09-20 | Panasonic Corporation | Scalable encoding device and scalable encoding method |
US7864717B2 (en) * | 2006-01-09 | 2011-01-04 | Flextronics Automotive Inc. | Modem for communicating data over a voice channel of a communications system |
US8200480B2 (en) * | 2009-09-30 | 2012-06-12 | International Business Machines Corporation | Deriving geographic distribution of physiological or psychological conditions of human speakers while preserving personal privacy |
JP5732624B2 (ja) * | 2009-12-14 | 2015-06-10 | パナソニックIpマネジメント株式会社 | ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法 |
US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
CN113938749B (zh) * | 2021-11-30 | 2023-05-05 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、电子设备和存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
DE3783905T2 (de) * | 1987-03-05 | 1993-08-19 | Ibm | Verfahren zur grundfrequenzbestimmung und sprachkodierer unter verwendung dieses verfahrens. |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5574823A (en) * | 1993-06-23 | 1996-11-12 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications | Frequency selective harmonic coding |
JP2658816B2 (ja) * | 1993-08-26 | 1997-09-30 | 日本電気株式会社 | 音声のピッチ符号化装置 |
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
JP4121578B2 (ja) * | 1996-10-18 | 2008-07-23 | ソニー株式会社 | 音声分析方法、音声符号化方法および装置 |
-
1998
- 1998-06-05 DE DE69836081T patent/DE69836081D1/de not_active Expired - Lifetime
- 1998-06-05 CN CN98800966A patent/CN1231050A/zh active Pending
- 1998-06-05 JP JP11508355A patent/JP2001500284A/ja not_active Withdrawn
- 1998-06-05 WO PCT/IB1998/000871 patent/WO1999003095A1/en active IP Right Grant
- 1998-06-05 EP EP98921678A patent/EP1002312B1/en not_active Expired - Lifetime
- 1998-06-05 KR KR1019997002060A patent/KR100578265B1/ko not_active Expired - Fee Related
- 1998-07-13 US US09/114,749 patent/US6078879A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE69836081D1 (de) | 2006-11-16 |
KR20010029497A (ko) | 2001-04-06 |
EP1002312B1 (en) | 2006-10-04 |
KR100578265B1 (ko) | 2006-05-11 |
EP1002312A1 (en) | 2000-05-24 |
CN1231050A (zh) | 1999-10-06 |
US6078879A (en) | 2000-06-20 |
WO1999003095A1 (en) | 1999-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5574823A (en) | Frequency selective harmonic coding | |
US5778335A (en) | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding | |
KR101147878B1 (ko) | 코딩 및 디코딩 방법 및 장치 | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
US6202046B1 (en) | Background noise/speech classification method | |
US6345246B1 (en) | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates | |
US6067511A (en) | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
EP0770987A2 (en) | Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
US6094629A (en) | Speech coding system and method including spectral quantizer | |
CN1295677C (zh) | 用于估算语音调制解调器中的模拟高频段信号的方法和系统 | |
EP1222659A1 (en) | Lpc-harmonic vocoder with superframe structure | |
JP2001222297A (ja) | マルチバンドハーモニック変換コーダ | |
JP2004287397A (ja) | 相互使用可能なボコーダ | |
US7016832B2 (en) | Voiced/unvoiced information estimation system and method therefor | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
KR100568889B1 (ko) | 개선된 스피치 인코더 및 디코더를 갖는 송신기 | |
US5884251A (en) | Voice coding and decoding method and device therefor | |
JP2001500284A (ja) | 改良した調波音声符号器を備えた送信機 | |
US5657419A (en) | Method for processing speech signal in speech processing system | |
WO2000051104A1 (en) | Method of determining the voicing probability of speech signals | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
JP2001166800A (ja) | 音声符号化方法及び音声復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050603 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070405 |