JP4121578B2 - 音声分析方法、音声符号化方法および装置 - Google Patents
音声分析方法、音声符号化方法および装置 Download PDFInfo
- Publication number
- JP4121578B2 JP4121578B2 JP27650196A JP27650196A JP4121578B2 JP 4121578 B2 JP4121578 B2 JP 4121578B2 JP 27650196 A JP27650196 A JP 27650196A JP 27650196 A JP27650196 A JP 27650196A JP 4121578 B2 JP4121578 B2 JP 4121578B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- search
- speech
- pitch search
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000004458 analytical method Methods 0.000 title claims abstract description 57
- 238000001228 spectrum Methods 0.000 claims abstract description 101
- 238000011156 evaluation Methods 0.000 claims abstract description 34
- 230000003595 spectral effect Effects 0.000 claims abstract description 14
- 230000005236 sound signal Effects 0.000 claims description 19
- 239000011295 pitch Substances 0.000 description 141
- 230000015572 biosynthetic process Effects 0.000 description 47
- 238000003786 synthesis reaction Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 45
- 239000013598 vector Substances 0.000 description 37
- 238000013139 quantization Methods 0.000 description 36
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 230000005284 excitation Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 238000007630 basic procedure Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の属する技術分野】
本発明は、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を分析する音声分析方法、およびこの音声分析方法を用いる音声符号化方法および装置に関する。
【0002】
【従来の技術】
音声信号や音響信号を含むオーディオ信号の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行う符号化方法が種々知られている。このような符号化方法は、時間領域での符号化、周波数領域での符号化、分析合成符号化等に大別される。
【0003】
音声信号等の高能率符号化の例として、ハーモニック(Harmonic)符号化、MBE(Multiband Excitation: マルチバンド励起)符号化等のサイン波分析符号化や、SBC(Sub-band Coding:帯域分割符号化)、LPC(Linear Predictive Coding: 線形予測符号化)、あるいはDCT(離散コサイン変換)、MDCT(モデファイドDCT)、FFT(高速フーリエ変換)等が知られている。
【0004】
【発明が解決しようとする課題】
従来のMBE,STC,ハーモニック符号化,LPC残差等のハーモニック符号化において、オープンループで比較的粗いピッチサーチを行った後の高精度(ファイン)ピッチサーチにおいて、周波数領域全体の合成波形、すなわち合成スペクトルと、原スペクトル、例えばLPC残差スペクトルのひずみを最小とする高精度ピッチ(整数サンプル値以下でのフラクショナルピッチ)サーチと、周波数領域の波形の振幅評価とを同時に行っていた。
【0005】
しかし、人の音声スペクトルは、有声音部分においても、必ずしも厳密に基本波の整数倍の位置にスペクトルが存在するのではなく、周波数と共にその位置が微妙にずれる場合がある。そのような場合、音声スペクトルの全帯域にわたり一つの基本周波数あるいはピッチを用いて、上記高精度ピッチサーチを行ってもスペクトルの振幅評価が正しく行えない場合がある。
【0006】
本発明は、このような課題を解決するためになされたものであり、基本波の整数倍からずれた位置に存在する音声スペクトルのハーモニクスの振幅も正しく評価できる音声分析方法、およびこの音声分析方法を適用して、明瞭度が高い再生出力を得ることができる音声符号化方法および装置を提供することを目的とするものである。
【0007】
【課題を解決するための手段】
本発明に係る音声分析方法は、上述した課題を解決するために、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を分析する音声分析方法において、入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いて、ピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程とを有することを特徴とするものである。
【0008】
上記の特徴を備えた本発明に係る音声分析方法によれば、基本波の整数倍からずれている音声スペクトルのハーモニクスの振幅も正しく評価することができる。
【0009】
また、本発明に係る音声符号化方法は、上述した課題を解決するために、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化方法において、入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程とを有することを特徴とするものである。
さらに、本発明に係る音声符号化装置は、上述した課題を解決するために、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化装置において、入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する手段と、上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する手段とを有することを特徴とするものである。
【0010】
上記の特徴を備えた本発明に係る音声符号化方法および装置によれば、基本波の整数倍からずれている音声スペクトルのハーモニクスの振幅も正しく評価することができるため、音のこもり感やひずみがなく明瞭度が高い再生出力を得ることができる。
【0011】
【発明の実施の形態】
以下、本発明に係る好ましい実施の形態について説明する。
先ず、図1は、本発明に係る音声分析方法および音声符号化方法の実施の形態が適用された音声符号化装置の基本構成を示している。
【0012】
ここで、図1の音声符号化装置の基本的な考え方は、入力音声信号の短期予測残差、例えばLPC(線形予測符号化)残差を求めてサイン波分析(sinusoidal analysis )符号化、例えばハーモニックコーディング(harmonic coding )を行う第1の符号化部110と、入力音声信号に対して位相再現性のある波形符号化により符号化する第2の符号化部120とを有し、入力信号の有声音(V:Voiced)の部分の符号化に第1の符号化部110を用い、入力信号の無声音(UV:Unvoiced)の部分の符号化には第2の符号化部120を用いるようにすることである。
【0013】
上記第1の符号化部110には、例えばLPC残差をハーモニック符号化やマルチバンド励起(MBE)符号化のようなサイン波分析符号化を行う構成が用いられる。上記第2の符号化部120には、例えば合成による分析法を用いて最適ベクトルのクローズドループサーチによるベクトル量子化を用いた符号励起線形予測(CELP)符号化の構成が用いられる。
【0014】
図1の例では、入力端子101に供給された音声信号が、第1の符号化部110のLPC逆フィルタ111およびLPC分析・量子化部113に送られている。LPC分析・量子化部113から得られたLPC係数あるいは、いわゆるαパラメータは、LPC逆フィルタ111に送られて、このLPC逆フィルタ111により入力音声信号の線形予測残差(LPC残差)が取り出される。また、LPC分析・量子化部113からは、後述するようにLSP(線スペクトル対)の量子化出力が取り出され、これが出力端子102に送られる。LPC逆フィルタ111からのLPC残差は、サイン波分析符号化部114に送られる。サイン波分析符号化部114では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、V(有声音)/UV(無声音)判定部115によりV/UVの判定が行われる。サイン波分析符号化部114からのスペクトルエンベロープ振幅データがベクトル量子化部116に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部116からのコードブックインデクスは、スイッチ117を介して出力端子103に送られ、サイン波分析符号化部114からの出力は、スイッチ118を介して出力端子104に送られる。また、V/UV判定部115からのV/UV判定出力は、出力端子105に送られると共に、スイッチ117、118の制御信号として送られており、上述した有声音(V)のとき上記インデクスおよびピッチが選択されて各出力端子103および104からそれぞれ取り出される。
【0015】
図1の第2の符号化部120は、この例ではCELP(符号励起線形予測)符号化構成を有しており、雑音符号帳121からの出力を、重み付きの合成フィルタ122により合成処理し、得られた重み付き音声を減算器123に送り、入力端子101に供給された音声信号を聴覚重み付けフィルタ125を介して得られた音声との誤差を取り出し、この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳121でサーチするような、合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このCELP符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳121からのUVデータとしてのコードブックインデクスは、上記V/UV判定部115からのV/UV判定結果が無声音(UV)のときオンとなるスイッチ127を介して、出力端子107より取り出される。
【0016】
次に、図2は、本発明に係る音声復号化方法の一実施の形態が適用された音声復号化装置として、上記図1の音声符号化装置に対応する音声復号化装置の基本構成を示すブロック図である。
【0017】
この図2において、入力端子202には上記図1の出力端子102からの上記LSP(線スペクトル対)の量子化出力としてのコードブックインデクスが入力される。入力端子203、204、および205には、上記図1の各出力端子103、104、および105からの各出力、すなわちエンベロープ量子化出力としてのインデクス、ピッチ、およびV/UV判定出力がそれぞれ入力される。また、入力端子207には、上記図1の出力端子107からのUV(無声音)用のデータとしてのインデクスが入力される。
【0018】
入力端子203からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器212に送られて逆ベクトル量子化され、LPC残差のスペクトルエンベロープが求められて有声音合成部211に送られる。有声音合成部211は、サイン波合成により有声音部分のLPC(線形予測符号化)残差を合成するものであり、この有声音合成部211には入力端子204および205からのピッチおよびV/UV判定出力も供給されている。有声音合成部211からの有声音のLPC残差は、LPC合成フィルタ214に送られる。また、入力端子207からのUVデータのインデクスは、無声音合成部220に送られて、雑音符号帳を参照することにより無声音部分のLPC残差が取り出される。このLPC残差もLPC合成フィルタ214に送られる。LPC合成フィルタ214では、上記有声音部分のLPC残差と無声音部分のLPC残差とがそれぞれ独立に、LPC合成処理が施される。あるいは、有声音部分のLPC残差と無声音部分のLPC残差とが加算されたものに対してLPC合成処理を施すようにしてもよい。ここで入力端子202からのLSPのインデクスは、LPCパラメータ再生部213に送られて、LPCのαパラメータが取り出され、これがLPC合成フィルタ214に送られる。LPC合成フィルタ214によりLPC合成されて得られた音声信号は、出力端子201より取り出される。
【0019】
次に、上記図1に示した音声符号化装置の、より具体的な構成について、図3を参照しながら説明する。なお、図3において、上記図1の各部と対応する部分には同じ指示符号を付している。
【0020】
この図3に示された音声符号化装置において、入力端子101に供給された音声信号は、ハイパスフィルタ(HPF)109にて不要な帯域の信号を除去するフィルタ処理が施された後、LPC(線形予測符号化)分析・量子化部113のLPC分析回路132と、LPC逆フィルタ回路111とに送られる。
【0021】
LPC分析・量子化部113のLPC分析回路132は、例えば、サンプリング周波数fs=8kHzの入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、160サンプル程度とする。例えば、サンプリング周波数fs が8kHzのとき、1フレーム間隔は160サンプルで20msec となる。
【0022】
LPC分析回路132からのαパラメータは、α→LSP変換回路133に送られて、線スペクトル対(LSP)パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。変換は、例えばニュートン−ラプソン法等を用いて行う。このLSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【0023】
α→LSP変換回路133からのLSPパラメータは、LSP量子化器134によりマトリクス量子化あるいはベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよく、複数フレーム分をまとめてマトリクス量子化してもよい。ここでは、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータを2フレーム分まとめて、マトリクス量子化およびベクトル量子化している。なお、上記LSP領域でのLSPパラメータの量子化は、直接αパラメータまたはkパラメータを直接に量子化するようにしてもよい。このLSP量子化器134からの量子化出力、すなわちLSP量子化のインデクスは、端子102を介して取り出され、また量子化済みのLSPベクトルは、LSP補間回路136に送られる。
【0024】
LSP補間回路136は、上記20msec あるいは40msec 毎に量子化されたLSPのベクトルを補間し、8倍のレート(オーバーサンプル)にする。すなわち、2.5msec 毎にLSPベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、LPC係数が20msec 毎に急激に変化すると異音を発生することがあるからである。すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【0025】
このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路137により、量子化済LSPパラメータを、例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。このLSP→α変換回路137からの出力は、上記LPC逆フィルタ回路111に送られ、このLPC逆フィルタ111では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このLPC逆フィルタ111からの出力は、サイン波分析符号化部114、具体的には、例えばハーモニック符号化回路、の直交変換回路145、例えばDFT(離散フーリエ変換)回路に送られる。
【0026】
LPC分析・量子化部113のLPC分析回路132からのαパラメータは、聴覚重み付けフィルタ算出回路139に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器116と、第2の符号化部120の聴覚重み付けフィルタ125および聴覚重み付きの合成フィルタ122とに送られる。
【0027】
ハーモニック符号化回路等のサイン波分析符号化部114では、LPC逆フィルタ111からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Am の算出、有声音(V)/無声音(UV)の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Am の個数を次元変換して一定数にしている。
【0028】
図3に示すサイン波分析符号化部114の具体例においては、一般のハーモニック符号化を想定しているが、特に、MBE(Multiband Excitation: マルチバンド励起)符号化の場合には、同時刻(同じブロックあるいはフレーム内)の周波数軸領域いわゆるバンド毎に有声音(Voiced)部分と無声音(Unvoiced)部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、1ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のV/UVとは、MBE符号化に適用した場合には全バンドがUVのときを当該フレームのUVとしている。ここで上記MBEの分析合成手法については、本件出願人が先に提案した特願平4−91422号明細書および図面に詳細な具体例を開示している。
【0029】
図3のサイン波分析符号化部114のオープンループピッチサーチ部141には、上記入力端子101からの入力音声信号が、またゼロクロスカウンタ142には、上記HPF(ハイパスフィルタ)109からの信号がそれぞれ供給されている。サイン波分析符号化部114の直交変換回路145には、LPC逆フィルタ111からのLPC残差あるいは線形予測残差が供給されている。
【0030】
オープンループピッチサーチ部141では、入力信号のLPC残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチは高精度ピッチサーチ146に送られて、後述するようなクローズドループによる高精度のピッチサーチ(ピッチのファインサーチ)が行われる。このピッチデータは、いわゆるピッチラグ、すなわちピッチ周期を時間軸上のサンプル数で表したものを用いている。さらに、後述するV/UV(有声音/無声音)判定部115からの判定出力も上記オープンループによるピッチサーチのためのパラメータとして用いるようにしてもよい。このとき、音声信号のV(有声音)と判定された部分から抽出されたピッチ情報のみを上記オープンループピッチサーチに用いるようにする。
【0031】
直交変換回路145では、例えば256点のDFT(離散フーリエ変換)等の直交変換処理が施されて、時間軸上のLPC残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路145からの出力は、高精度ピッチサーチ部146およびスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部148に送られる。
【0032】
高精度(ファイン)ピッチサーチ部146には、オープンループピッチサーチ部141で抽出された比較的ラフな粗ピッチと、直交変換部145により、例えばDFTされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部146では、粗ピッチP0 に基づいて、さらにインテジャーサーチとフラクショナルサーチとからなる2段階の高精度ピッチサーチを行う。
【0033】
ここで、上記インテジャーサーチとは、上記粗ピッチを中心に整数サンプルきざみでサンプルを振って、ピッチを選択するピッチ検出方法をいう。また、上記フラクショナルサーチとは、上記粗ピッチを中心に1サンプル以下(すなわち小数で表されるサンプル数)きざみでサンプルを振って、ピッチを検出するピッチ検出方法をいう。
【0034】
上記インテジャーサーチおよびフラクショナルサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。
【0035】
このようなクローズドループによる高精度のピッチサーチ部146からのピッチ情報は、スイッチ118を介して出力端子104に送られる。
【0036】
スペクトル評価部148では、LPC残差の直交変換出力としてのスペクトル振幅およびピッチ情報に基づいて各ハーモニクスの大きさおよびその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部146、V/UV(有声音/無声音)判定部115および聴覚重み付きのベクトル量子化器116に送られる。
【0037】
V/UV(有声音/無声音)判定部115は、直交変換回路145からの出力と、高精度ピッチサーチ部146からの最適ピッチと、スペクトル評価部148からのスペクトル振幅データと、オープンループピッチサーチ部141からの正規化自己相関最大値r'(1)と、ゼロクロスカウンタ142からのゼロクロスカウント値とに基づいて、当該フレームのV/UV判定が行われる。さらに、MBEの場合の各バンド毎のV/UV判定結果の境界位置も該フレームのV/UV判定の一条件としてもよい。このV/UV判定部115からの判定出力は、出力端子105を介して取り出される。
【0038】
ところで、スペクトル評価部148の出力部あるいはベクトル量子化器116の入力部には、データ数変換(一種のサンプリングレート変換)部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ|Am| を一定の個数にするためのものである。すなわち、例えば有効帯域を3400kHzまでとすると、この有効帯域が上記ピッチに応じて、8バンド〜63バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ|Am| の個数mMX+1も8〜63と変化することになる。このためデータ数変換部119では、この可変個数mMX+1の振幅データを一定個数M個、例えば44個、のデータに変換している。
【0039】
このスペクトル評価部148の出力部あるいはベクトル量子化器116の入力部に設けられたデータ数変換部からの上記一定個数M個(例えば44個)の振幅データあるいはエンベロープデータが、ベクトル量子化器116により、所定個数、例えば44個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路139からの出力により与えられる。ベクトル量子化器116からの上記エンベロープのインデクスは、スイッチ117を介して出力端子103より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【0040】
次に、第2の符号化部120について説明する。第2の符号化部120は、いわゆるCELP(符号励起線形予測)符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のCELP符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック(stochastic code book)121からの代表値出力である無声音のLPC残差に相当するノイズ出力を、ゲイン回路126を介して、聴覚重み付きの合成フィルタ122に送っている。重み付きの合成フィルタ122では、入力されたノイズをLPC合成処理し、得られた重み付き無声音の信号を減算器123に送っている。減算器123には、上記入力端子101からHPF(ハイパスフィルタ)109を介して供給された音声信号を聴覚重み付けフィルタ125で聴覚重み付けした信号が入力されており、合成フィルタ122からの信号との差分あるいは誤差を取り出している。なお、聴覚重み付けフィルタ125の出力から合成フィルタの零入力応答を事前に差し引いておくものとする。この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳121でサーチする。このような合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチにより時間軸波形のベクトル量子化を行っている。
【0041】
このCELP符号化構成を用いた第2の符号化部120からのUV(無声音)部分用のデータとしては、雑音符号帳121からのコードブックのシェイプインデクスと、ゲイン回路126からのコードブックのゲインインデクスとが取り出される。雑音符号帳121からのUVデータであるシェイプインデクスは、スイッチ127sを介して出力端子107sに送られ、ゲイン回路126のUVデータであるゲインインデクスは、スイッチ127gを介して出力端子107gに送られている。
【0042】
ここで、これらのスイッチ127s、127gおよび上記スイッチ117、118は、上記V/UV判定部115からのV/UV判定結果によりオン/オフ制御され、スイッチ117、118は、現在伝送しようとするフレームの音声信号のV/UV判定結果が有声音(V)のときオンとなり、スイッチ127s、127gは、現在伝送しようとするフレームの音声信号が無声音(UV)のときオンとなる。
【0043】
次に、図4は、上記図2に示した本発明に係る実施の形態としての音声信号復号化装置のより具体的な構成を示している。この図4において、上記図2の各部と対応する部分には、同じ指示符号を付している。
【0044】
この図4において、入力端子202には、上記図1、3の出力端子102からの出力に相当するLSPのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【0045】
このLSPのインデクスは、LPCパラメータ再生部213のLSPの逆ベクトル量子化器231に送られてLSP(線スペクトル対)データに逆ベクトル量子化され、LSP補間回路232、233に送られてLSPの補間処理が施された後、LSP→α変換回路234、235でLPC(線形予測符号)のαパラメータに変換され、このαパラメータがLPC合成フィルタ214に送られる。ここで、LSP補間回路232及びLSP→α変換回路234は有声音(V)用であり、LSP補間回路233及びLSP→α変換回路235は無声音(UV)用である。またLPC合成フィルタ214は、有声音部分のLPC合成フィルタ236と、無声音部分のLPC合成フィルタ237とを分離している。すなわち、有声音部分と無声音部分とでLPCの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるLSPどうしを補間することによる悪影響を防止している。
【0046】
また、図4の入力端子203には、上記図1、図3のエンコーダ側の端子103からの出力に対応するスペクトルエンベロープ(Am)の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子204には、上記図1、図3の端子104からのピッチのデータが供給され、入力端子205には、上記図1、図3の端子105からのV/UV判定データが供給されている。
【0047】
入力端子203からのスペクトルエンベロープAmのベクトル量子化されたインデクスデータは、逆ベクトル量子化器212に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部211のサイン波合成回路215に送られている。
【0048】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【0049】
サイン波合成回路215には、入力端子204からのピッチ及び入力端子205からの上記V/UV判定データが供給されている。サイン波合成回路215からは、上述した図1、図3のLPC逆フィルタ111からの出力に相当するLPC残差データが取り出され、これが加算器218に送られている。このサイン波合成の具体的な手法については、例えば本件出願人が先に提案した、特願平4−91422号の明細書及び図面、あるいは特願平6−198451号の明細書及び図面に開示されている。
【0050】
また、逆ベクトル量子化器212からのエンベロープのデータと、入力端子204、205からのピッチ、V/UV判定データとは、有声音(V)部分のノイズ加算のためのノイズ合成回路216に送られている。このノイズ合成回路216からの出力は、重み付き重畳加算回路217を介して加算器218に送っている。これは、サイン波合成によって有声音のLPC合成フィルタへの入力となるエクサイテイション(Excitation:励起、励振)を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びV(有声音)とUV(無声音)とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のLPC合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ、スペクトルエンベロープ振幅、フレーム内の最大振幅、残差信号のレベル等を考慮したノイズをLPC残差信号の有声音部分に加えているものである。
【0051】
加算器218からの加算出力は、LPC合成フィルタ214の有声音用の合成フィルタ236に送られてLPCの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ238vでフィルタ処理された後、加算器239に送られる。
【0052】
次に、図4の入力端子207s及び207gには、上記図3の出力端子107s及び107gからのUVデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部220に送られている。端子207sからのシェイプインデクスは、無声音合成部220の雑音符号帳221に、端子207gからのゲインインデクスはゲイン回路222にそれぞれ送られている。雑音符号帳221から読み出された代表値出力は、無声音のLPC残差に相当するノイズ信号成分であり、これがゲイン回路222で所定のゲインの振幅となり、窓かけ回路223に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。
【0053】
窓かけ回路223からの出力は、無声音合成部220からの出力として、LPC合成フィルタ214のUV(無声音)用の合成フィルタ237に送られる。合成フィルタ237では、LPC合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ238uでフィルタ処理された後、加算器239に送られる。
【0054】
加算器239では、有声音用ポストフィルタ238vからの有声音部分の時間波形信号と、無声音用ポストフィルタ238uからの無声音部分の時間波形データとが加算され、出力端子201より取り出される。
【0055】
次に、本発明に係る音声分析方法が適用された上記第1の符号化部110での処理の基本的な手順を図5に示す。
【0056】
入力音声信号は、ステップS51のLPC分析工程と、ステップS55のオープンループピッチサーチ(粗ピッチサーチ)工程とに供給される。
【0057】
ステップS51のLPC分析工程では、例えば、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。
【0058】
次に、ステップS52のLSP量子化およびLPC逆フィルタ工程では、ステップS51で求めたαパラメータが、LPC量子化器によりマトリクス量子化あるいはベクトル量子化される。また、上記αパラメータは、LPC逆フィルタに送られて、入力音声信号の線形予測残差(LPC残差)が取り出される。
【0059】
次に、ステップS53のLPC残差信号への窓がけ工程では、ステップS52で取り出されたLPC残差信号に、例えばハミング窓等の適当な窓がけを行う。なお、このとき、図6に示すように、フレームとフレームとの間を越えて窓かけを行っている。
【0060】
次に、ステップS54のFFT工程では、ステップS53で窓がけを行ったLPC残差信号に、例えば256点のFFTを行って周波数軸上のパラメータであるFFTスペクトルに変換する。このとき、N点でFFTされた音声信号のスペクトルは、0〜πに対応してX(0)〜X(N/2−1)個のスペクトルデータからなる。
【0061】
一方、ステップS55のオープンループピッチサーチ(粗ピッチサーチ)工程では、入力信号のLPC残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、粗ピッチが出力される。
【0062】
そして、ステップS56のピッチファインサーチ及びスペクトル振幅評価工程では、ステップS55で得たFFTスペクトルと、予め決定されている基底とを用いてスペクトル振幅を算出する。
【0063】
次に、図3に示した音声符号化装置の直交変換回路145およびスペクトル評価部148における、スペクトルの振幅評価について具体的に説明する。
【0064】
まず、以下の説明に用いるパラメータ等を
X(j) (0≦j<128):FFTスペクトル
E(j) (0≦j<128):基底
A(m) :ハーモニクスの振幅
と定義する。
【0065】
スペクトル振幅の評価誤差ε(m)は、数1に示す(1)式と表される。
【0066】
【数1】
【0067】
上記FFTスペクトルX(j)は直交変換回路145でフーリエ変換により得られた周波数軸上のパラメータである。また、基底E(j)は予め決定されているものとする。
【0068】
(1)式をハーモニクスの振幅A(m)で微分したものを0とおいた
【0069】
【数2】
【0070】
を解いて、極値を与えるA(m)、すなわち上記評価誤差が最小となるA(m)を求めることにより数3に示す(2)式を得る。
【0071】
【数3】
【0072】
ここで、a(m)およびb(m)は、図7(a)に示すように、周波数スペクトルの低域から高域までを一つのピッチω0 で分割した場合に、第m番目の帯域(バンド)の上限および下限のFFT係数のインデクスとする。このとき、上記第m番目のハーモニクスの中心周波数は、(a(m)+b(m))/2に相当する。
【0073】
また、上記基底E(j)は、例えば、256点のハミング窓そのものを用いてもよく、または256点のハミング窓に0を詰めて、例えば2048点としたものを256点または2048点でFFTして得たスペクトルを用いてもよい。ただし、その場合には、(2)式のハーモニクスの振幅|A(m)| の評価において、図7(b)に示すようにE(0)が(a(m)+b(m))/2の位置に重なるようにオフセットを加えておく必要がある。このとき、(2)式は、より厳密には、数4に示す(3)式となる。
【0074】
【数4】
【0075】
同様に、第m番目のバンドのスペクトル振幅の評価誤差ε(m)は数5に示す(4)式となる。
【0076】
【数5】
【0077】
このとき基底E(j)は、
−128≦j≦127 または −1024≦j≦1023
の区間で定義される。
【0078】
次に、図3に示した高精度ピッチサーチ部146における、高精度ピッチサーチについて具体的に説明する。
【0079】
ハーモニクススペクトルの振幅評価を高精度に行うためには、高精度のピッチをえることが必要である。すなわち、ピッチの精度が低いと、振幅評価が正しく行えなくなり、明瞭な再生音声を得ることができなくなる。
【0080】
本発明に係る音声分析方法におけるピッチサーチの基本的な手順は、まずオープンループピッチサーチ部141でオープンループによる比較的粗い(ラフな)ピッチサーチを予め行い、粗ピッチの値P0 を得る。そして、この粗ピッチP0 に基づいて、さらに高精度ピッチサーチ部146でインテジャーサーチとフラクショナルサーチとからなる2段階の高精度ピッチサーチを行うというものである。
【0081】
オープンループピッチサーチ部141における比較的粗い(ラフな)ピッチサーチにより求められる粗ピッチは、前述したように、現在分析しているフレームのLPC残差の自己相関の最大値に基づいて、その前後のフレームにおけるオープンループピッチ(粗ピッチ)とのつながりを考慮して求められる。
【0082】
また、インテジャーサーチは、周波数スペクトルの全帯域について行い、フラクショナルサーチは周波数スペクトルの帯域を分割して、分割された各帯域についてそれぞれ行う。
【0083】
高精度ピッチサーチの具体的な手順の一例を図9〜図12のフローチャートを参照しながら説明する。ここで、上記粗ピッチの値P0 は、サンプリング周波数fs=8kHzのとき、ピッチ周期をサンプル数で表した、いわゆるピッチラグの値である。kはループの繰り返し回数である。
【0084】
上記高精度ピッチサーチは、インテジャーサーチ,高域側フラクショナルサーチ,低域側フラクショナルサーチの順で行われる。これらのサーチ工程においては、合成スペクトルと原スペクトルとの誤差を最小とするようにピッチサーチが行われる。すなわち(4)式で算出される評価誤差ε(m) を最小とするようにする。従って、上記高精度ピッチサーチ工程には、(3)式で与えられるハーモニクスの振幅|A(m)| および(4)式で算出される評価誤差ε(m) とが含まれることになり、高精度ピッチサーチとスペクトル振幅評価とが同時に行われることになる。
【0085】
図8(a)は、周波数スペクトルの全帯域に対してインテジャーサーチによるピッチ検出を行う様子を示している。これから明らかなように、全帯域のスペクトル振幅を一つのピッチω0 で評価しようとすると、原スペクトルと合成スペクトルのずれが大きくなり、この方法だけでは正確な振幅評価が行えないことが分かる。
【0086】
図9は、上述したインテジャーサーチの具体的な手順を示している。
【0087】
ステップS1では、インテジャーサーチの際のサンプル数を与えるNUMP_INTの値,フラクショナルサーチのサンプル数を与えるNUMP_FLTの値,フラクショナルサーチの際のステップSの大きさを与えるSTEP_SIZEの値がセットされる。なお、これらの値の具体例は、NUMP_INT=3,NUMP_FLT=5,STEP_SIZE=0.25などである。
【0088】
ステップS2では、粗ピッチP0 とNUMP_INTとからピッチPchの初期値が与えられると共に、ループカウンターがk=0とされてリセットされる。
【0089】
ステップS3では、ステップS2で与えられたピッチPchと入力音声信号のスペクトルX(j) から、ハーモニクスの振幅|Am| ,低域側のみの振幅誤差の総和εrl,高域側のみの振幅誤差の総和εrhを算出する。なお、このステップS3における具体的な操作については後述する。
【0090】
ステップS4では、「低域側のみの振幅誤差の総和εrlと高域側のみの振幅誤差の総和εrhとの和がminεrより小さい または k=0」であるかどうかが判定される。この条件を満たさないときは、ステップS5を経ずにステップS6に進む。一方、この条件を満たすときは、ステップS5に進み、
minεr = εrl+εrh
minεrl = εrl
minεrh = εrh
FinalPitch = Pch,Am_tmp(m) = |A(m)|
がセットされる。
【0091】
ステップS6では、
Pch = Pch+1
がセットされる。
【0092】
ステップS7では、「kがNUMP_INTより小さい」という条件を満たすかどうかが判定される。この条件を満たすときは、ステップS3に戻る。一方、この条件を満たさないときは、ステップS8に進む。
【0093】
図8(b)は、周波数スペクトルの高域側で、フラクショナルサーチによるピッチ検出を行う様子を示している。これから、上述した、周波数スペクトルの全帯域に対して行うインテジャーサーチに比べて、高域側での評価誤差を小さくできることが分かる。
【0094】
図10は、上記高域側フラクショナルサーチの具体的な手順を示している。
【0095】
ステップS8では、
Pch = FinalPitch−(NUMP_FLT−1)/2×STEP_SIZE
k = 0
がセットされる。ここで、上記FinalPitchは、前述した全帯域のインテジャーサーチにより得られたピッチである。
【0096】
ステップS9では、「kが(NUMP_FLT−1)/2に等しい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップS10に進む。一方、この条件を満たすときは、ステップS11に進む。
【0097】
ステップS10では、ピッチPchと入力音声信号のスペクトルX(j) から、ハーモニクスの振幅|Am| と高域側のみの振幅誤差の総和εrhを算出し、ステップS12に進む。なお、このステップS10における具体的な操作については後述する。
【0098】
ステップS11では、
εrh = minεrh
|A(m)| = Am_tmp(m)
がセットされ、ステップS12に進む。
【0099】
ステップS12では、「εrhがminεrより小さい 又は k=0」という条件を満たすかどうか判定される。この条件を満たさないときは、ステップS13を経ずにステップS14に進む。一方、この条件を満たすときは、ステップS13に進む。
【0100】
ステップS13では、
minεr = εrh
FinalPitch_h = Pch
Am_h(m) = |A(m)|
がセットされる。
【0101】
ステップS14では、
Pch = Pch+STEP_SIZE
k = k+1
がセットされる。
【0102】
ステップS15では、「kがNUMP_FLTより小さい」という条件を満たすかどうかが判定される。この条件を満たすときは、ステップS9に戻る。一方、この条件を満たさないときは、ステップS16に進む。
【0103】
図8(c)は、周波数スペクトルの低域側で、フラクショナルサーチによるピッチ検出を行う様子を示している。これから、前述した、周波数スペクトルの全帯域に対して行うインテジャーサーチに比べて、低域側での評価誤差を小さくできることが分かる。
【0104】
図11は、上記低域側フラクショナルサーチの具体的な手順を示している。
【0105】
ステップS16では、
Pch = FinalPitch−(NUMP_FLT−1)/2×STEP_SIZE
k = 0
がセットされる。ここで、上記FinalPitchは、前述した全帯域のインテジャーサーチにより得られたピッチである。
【0106】
ステップS17では、「kが(NUMP_FLT−1)/2に等しい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップS18に進む。一方、この条件を満たすときは、ステップS19に進む。
【0107】
ステップS18では、ピッチPchと入力音声信号のスペクトルX(j) から、ハーモニクスの振幅|Am|と低域側のみの振幅誤差の総和εrlを算出し、ステップS20に進む。なお、このステップS18における具体的な操作については後述する。
【0108】
ステップS19では、
εrl = minεrl
|A(m)| = Am_tmp(m)
がセットされ、ステップS20に進む。
【0109】
ステップS20では、「εrlがminεrより小さい 又は k=0」という条件を満たすかどうか判定される。この条件を満たさないときは、ステップS21を経ずにステップS22に進む。一方、この条件を満たすときは、ステップS21に進む。
【0110】
ステップS21では、
minεr = εrl
FinalPitch_l = Pch
Am_l(m) =|A(m)|
がセットされる。
【0111】
ステップS22では、
Pch = Pch+STEP_SIZE
k = k+1
がセットされる。
【0112】
ステップS23では、「kがNUMP_FLTより小さい」という条件を満たすかどうかが判定される。この条件を満たすときは、ステップS17に戻る。一方、この条件を満たさないときは、ステップS24に進む。
【0113】
図12は、図9〜図11に示した、周波数スペクトルの全帯域に対するインテジャーサーチ、高域側および低域側のそれぞれに対するフラクショナルサーチにより得られたピッチデータから、最終的に出力されるピッチが生成される手順を具体的に示している。
【0114】
ステップS24では、Am_l(m)から低域側のAm_l(m)とAm_h(m)から高域側のAm_h(m)とを用いてFinal_Am(m)を作る。
【0115】
ステップS25では、「FinalPitch_hが20より小さい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップS26を経ずにステップS27に進む。一方、この条件を満たすときは、ステップS26に進む。
【0116】
ステップS26では、
FinalPitch_h = 20
がセットされる。
【0117】
ステップS27では、「FinalPitch_lが20より小さい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップS28を経ずに処理を終了する。一方、この条件を満たすときは、ステップS28に進む。
【0118】
ステップS28では、
FinalPitch_l = 20
がセットされ、処理を終了する。
【0119】
なお、上記ステップS25からステップS28までの各ステップでは、最小ピッチを20で制限している例を示すものである。
【0120】
以上の手順により、FinalPitch_l,FinalPitch_h,Final_Am(m)が得られる。
【0121】
次に、図13および図14は、上述したピッチ検出工程により得られたピッチに基づいて、周波数スペクトルの区分された各帯域において、各々最適なハーモニクスの振幅を求める具体的な手段を示している。
【0122】
ステップS30では、
ω0 = N/Pch
Th = N/2・β
εrl = 0
εrh = 0
および
【0123】
【数6】
【0124】
がセットされる。ここで、ω0 は低域から高域までを一つのピッチで表現する際のピッチ、Nは音声信号のLPC残差をFFTする際のサンプル点数、Th は低域側と高域側を区別するインデクスである。また、βは所定の変数であり、その具体的な値は、例えばβ=50/125などである。上記sendは、全帯域内のハーモニクスの本数であり、ピッチPch/2の小数部分を切り捨てて整数値を得ているものである。
【0125】
ステップS31では、mの値が0とされる。ここで、mは、周波数軸上で複数の帯域に分割され周波数スペクトルのm番目の帯域、すなわち第m本目のハーモニクスに対応する帯域であることを表す変数である。
【0126】
ステップS32では、「mの値が0である」という条件が判定される。この条件が満たされないときは、ステップS33に進む。一方この条件を満たすときは、ステップS34に進む。
【0127】
ステップS33では、
a(m) = b(m-1)+1
がセットされる。
【0128】
ステップS34では、a(m)が0とされる。
【0129】
ステップS35では、
b(m) = nint{(m+0.5)×ω0}
がセットされる。ここで、nintは、最も近い整数を与えるものである。
【0130】
ステップS36では、「b(m)がN/2以上」という条件が判定される。この条件を満たさないとき、ステップS37を経ずにステップS38に進む。一方、この条件を満たすとき、
b(m) = N/2−1
がセットされる。
【0131】
ステップS38では、数7で示されるハーモニクス振幅|A(m)|がセットされる。
【0132】
【数7】
【0133】
ステップS39では、数8で示される評価誤差ε(m)がセットされる。
【0134】
【数8】
【0135】
ステップS40では、「b(m)がTh以下」という条件を満たすかどうかが判定される。この条件を満たさないときはステップS41に進み、一方、この条件を満たすときはステップS42に進む。
【0136】
ステップS41では、
εrh = εrh+ε(m)
がセットされる。
【0137】
ステップS42では、
εrl = εrl+ε(m)
がセットされる。
【0138】
ステップS43では、
m = m+1
がセットされる。
【0139】
ステップS44では、「mがsend以下」という条件を満たすかどうかが判定される。この条件を満たすときはステップS32に戻る。一方、この条件を満たさないときは処理を終了する。
【0140】
なお、上記ステップS38およびステップS39において、基底E(j) として、例えばX(j) のR倍のレートでサンプリングしたものを用いる場合には、ハーモニクス振幅|A(m)|および評価誤差ε(m)は、それぞれ数9及び数10となる。
【0141】
【数9】
【0142】
【数10】
【0143】
例えば、R=8として、前述のように256点のハミング窓に0を詰めて2048点のFFTを行って、8倍にオーバーサンプルした基底E(j) を用いてもよい。
【0144】
以上説明したように、本発明に係る音声分析方法におけるピッチ検出は、低域側のみの振幅誤差の総和εrlと高域側のみの振幅誤差の総和εrhとを独立に最適化(最小化)することにより、各帯域において最適なハーモニック振幅|A(m)|を算出することができる。
【0145】
すなわち、前述したステップS18では、低域側のみの振幅誤差の総和εrlだけが必要な場合には、m=0からm=Thまでの区間で上記処理を実行すればよい。また逆に、前述したステップS10では、高域側のみの振幅誤差の総和εrhだけが必要な場合には、ほぼm=Thからm=sendまでの区間で上記処理を実行すればよい。ただし、この場合には、低域側と高域側のピッチのずれにより、両者のつなぎ目のハーモニクスが抜けないように、わずかにオーバーラップさせる等のつなぎ処理が必要である。
【0146】
以上の説明から明らかなように、本発明の音声分析方法によれば、周波数スペクトルの各帯域毎に、最適なピッチおよびハーモニクス振幅を得ることができる。
【0147】
また、上記の音声分析方法を適用するエンコーダにおいて、実際に伝送するピッチは、前述したFinalPitch_lおよびFinalPitch_hのどちらの値でもよい。これは、デコーダにおいて符号化音声信号を合成し復号する際に、ハーモニクスの位置が多少ずれていても、ハーモニクスの振幅が全帯域で正しく評価されており、問題がないからである。例えば、FinalPitch_lをピッチパラメータとしてデコーダに伝送すると、高域側のスペクトル位置は本来の位置(すなわち分析時の位置)から少しずつずれた位置に現れる。しかし、この程度のずれは、聴感上全く問題とならない程度である。
【0148】
もちろん、ビットレートに余裕がある場合には、FinalPitch_lとFinalPitch_hの両方をピッチパラメータとして伝送し、あるいはFinalPitch_lおよびFinalPitch_lとFinalPitch_hとの差分を伝送して、デコーダ側で、FinalPitch_lを低域側のスペクトルに、FinalPitch_hを高域側のスペクトルに各々適用してサイン波合成を行い、より自然な合成音を得ることもできる。また、上記実施例では、インテジャーサーチを全帯域に対して行ったが、複数に分割した帯域に対して各々インテジャーサーチを行ってもよい。
【0149】
ところで、上記音声符号化装置では、要求される音声品質にて合わせ異なるビットレートの出力データを出力することができ、出力データのビットレートが可変されて出力される。
【0150】
具体的には、出力データのビットレートを、低ビットレートと高ビットレートとに切り換えることができる。例えば、低ビットレートを2kbpsとし、高ビットレートを6kbpsとする場合には、以下の表1に示す各ビットレートのデータが出力される。
【0151】
【表1】
【0152】
出力端子104からのピッチ情報については、有声音時に、常に8bits/20msecで出力され、出力端子105から出力されるV/UV判定出力は、常に1bit/20msecである。出力端子102から出力されるLSP量子化のインデクスは、32bits/40msecと48bits/40msecとの間で切り換えが行われる。また、出力端子103から出力される有声音時(V)のインデクスは、15bits/20msecと87bits/20msecとの間で切り換えが行われ、出力端子107s、107gから出力される無声音時(UV)のインデクスは、11bits/10msecと23bits/5msecとの間で切り換えが行われる。これにより、有声音時(V)の出力データは、2kbpsでは40bits/20msecとなり、6kbps では120bits/20msecとなる。また、無声音時(UV)の出力データは、2kbpsでは39bits/20msecとなり、6kbps では117bits/20msecとなる。なお、上記LSP量子化のインデクス、有声音時(V)のインデクス、および無声音時(UV)のインデクスについては、後述する各部の構成と共に説明する。
【0153】
次に、図3の音声符号化装置において、V/UV(有声音/無声音)判定部115の具体例について説明する。
【0154】
このV/UV判定部115においては、直交変換回路145からの出力と、高精度ピッチサーチ部146からの最適ピッチと、スペクトル評価部148からのスペクトル振幅データと、オープンループピッチサーチ部141からの正規化自己相関最大値r'(1)と、ゼロクロスカウンタ412からのゼロクロスカウント値とに基づいて、当該フレームのV/UV判定が行われる。さらに、MBEの場合と同様な各バンド毎のV/UV判定結果の境界位置も当該フレームのV/UV判定の一条件としている。
【0155】
このMBEの場合の各バンド毎のV/UV判定結果を用いたV/UV判定条件について以下に説明する。
【0156】
MBEの場合の第m番目のハーモニックスの大きさを表すパラメータあるいは振幅|Am| は、前述した(2)式と同じ数11により表せる。
【0157】
【数11】
【0158】
この式において、|X(j)| は、LPC残差をDFTしたスペクトルであり、|E(j)| は、基底信号のスペクトル、具体的には256ポイントのハミング窓をDFTしたものである。また、各バンド毎のV/UV判定のために、NSR(ノイズtoシグナル比)を利用する。この第mバンドのNSRは、
【0159】
【数12】
【0160】
と表せ、このNSR値が所定の閾値(例えば0.3 )より大のとき(エラーが大きい)ときには、そのバンドでの|Am ||E(j) |による|X(j) |の近似が良くない(上記励起信号|E(j) |が基底として不適当である)と判断でき、当該バンドをUV(Unvoiced、無声音)と判別する。これ以外のときは、近似がある程度良好に行われていると判断でき、そのバンドをV(Voiced:有声音)と判別する。
【0161】
ここで、上記各バンド(ハーモニクス)のNSRは、各ハーモニクス毎のスペクトル類似度をあらわしている。NSRのハーモニクスのゲインによる重み付け和をとったものをNSRall として次のように定義する。
【0162】
NSRall =(Σm |Am |NSRm )/(Σm |Am |)
このスペクトル類似度NSRall がある閾値より大きいか小さいかにより、V/UV判定に用いるルールベースを決定する。ここでは、この閾値をThNSR =0.3 としておく。このルールベースは、フレームパワー、ゼロクロス、LPC残差の自己相関の最大値に関するものであり、NSRall <ThNSR のときに用いられるルールベースでは、ルールが適用されるとVとなり適用されるルールがなかった場合はUVとなる。
【0163】
また、NSRall ≧ThNSR のときに用いられるルールベースでは、ルールが適用されるとUV、適用されるないとVとなる。
【0164】
ここで、具体的なルールは、次のようなものである。
NSRall <ThNSR のとき、
if numZeroXP<24、& frmPow>340、& r0>0.32 then V
NSRall ≧ThNSR のとき、
if numZeroXP>30、& frmPow<900、& r0<0.23 then UV
ただし、各変数は次のように定義される。
numZeroXP:1フレーム当たりのゼロクロス回数
frmPow :フレームパワー
r'(1) :自己相関最大値
上記のようなルールの集合であるルールベースに照合することで、V/UVが判定される。なお、MBEにおける各バンド毎のV/UV判定に、前述したような複数バンドでのピッチサーチを適用すれば、ハーモニクスの位置ずれによる誤動作を防ぐことができ、より正確なV/UV判定が可能になる。
【0165】
以上説明したような信号符号化装置および信号復号化装置は、例えば図15および図16に示すような携帯通信端末あるいは携帯電話機等に使用される音声コーデックとして用いることができる。
【0166】
すなわち、図15は、上記図1、図3に示したような構成を有する音声符号化部160を用いて成る携帯端末の送信側構成を示している。この図15のマイクロホン161で集音された音声信号は、アンプ162で増幅され、A/D(アナログ/ディジタル)変換器163でディジタル信号に変換されて、音声符号化部160に送られる。この音声符号化部160は、上述した図1、図3に示すような構成を有しており、この入力端子101に上記A/D変換器163からのディジタル信号が入力される。音声符号化部160では、上記図1、図3と共に説明したような符号化処理が行われ、図1、図2の各出力端子からの出力信号は、音声符号化部160の出力信号として、伝送路符号化部164に送られる。伝送路符号化部164では、いわゆるチャネルコーディング処理が施され、その出力信号が変調回路165に送られて変調され、D/A(ディジタル/アナログ)変換器166、RFアンプ167を介して、アンテナ168に送られる。
【0167】
また、図16は、上記図2、図4に示したような基本構成を有する音声復号化部260を用いて成る携帯端末の受信側構成を示している。この図16のアンテナ261で受信された音声信号は、RFアンプ262で増幅され、A/D(アナログ/ディジタル)変換器263を介して、復調回路264に送られ、復調信号が伝送路復号化部265に送られる。264からの出力信号は、上記図2に示すような構成を有する音声復号化部260に送られる。音声復号化部260では、上記図2に説明したような復号化処理が施され、図2の出力端子201からの出力信号が、音声復号化部260からの信号としてD/A(ディジタル/アナログ)変換器266に送られる。このD/A変換器266からのアナログ音声信号がスピーカ268に送られる。
【0168】
なお、本発明は上記実施の形態のみに限定されるものではなく、例えば上記図1、図3の音声分析側(エンコード側)の構成や、図2、図4の音声合成側(デコード側)の構成については、各部をハードウェア的に記載しているが、いわゆるDSP(ディジタル信号プロセッサ)等を用いてソフトウェアプログラムにより実現することも可能である。また、本発明の適用範囲は、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。
【0169】
また、本発明は上記実施の形態のみに限定されるものではなく、例えば上記図1、図3の音声分析側(エンコーダ側)の構成については、各部をハードウェア的に記載しているが、いわゆるDSP(ディジタル信号プロセッサ)等を用いてソフトウェアプログラムにより実現することも可能である。
【0170】
さらに、本発明の適用範囲は、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。
【0171】
【発明の効果】
以上説明したように、本発明の音声分析方法、音声符号化方法および装置によれば、入力音声の周波数スペクトルを周波数軸上で複数の帯域に区分し、その各帯域毎にスペクトル形状に基づいて、それぞれピッチサーチおよびハーモニクスの振幅評価を同時に行う。このとき、スペクトル形状としてハーモニクス構造を用い、さらに、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいく高精度ピッチサーチである、上記周波数スペクトルの全帯域に対する第1のピッチサーチと、上記周波数スペクトルの高域側および低域側の2つの帯域に対して独立に第1のピッチサーチより高精度の第2のピッチサーチを行う。基本波の整数倍からずれている音声スペクトルのハーモニクスの振幅も正しく評価して、明瞭度が高い再生出力を得ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声符号化方法の実施の形態が適用される音声符号化装置の基本構成を示すブロック図である。
【図2】本発明に係る音声復号化方法の実施の形態が適用される音声復号化装置の基本構成を示すブロック図である。
【図3】本発明の実施の形態となる音声符号化装置の、より具体的な構成を示すブロック図である。
【図4】本発明の実施の形態となる音声復号化装置の、より具体的な構成を示すブロック図である。
【図5】ハーモニクスの振幅を評価する基本的な手順を示す図である。
【図6】フレーム毎に処理されるスペクトルのオーバーラップを説明する図である。
【図7】基底の生成を説明する図である。
【図8】インテジャーサーチおよびフラクショナルサーチを説明する図である。
【図9】インテジャサーチの手順の一例を示すフローチャートである。
【図10】高域側におけるフラクショナルサーチの手順の一例を示すフローチャートである。
【図11】低域側におけるフラクショナルサーチの手順の一例を示すフローチャートである。
【図12】最終的にピッチが決定される手順の一例を示すフローチャートである。
【図13】各帯域に最適なハーモニクスの振幅を求める手順の一例を示すフローチャートである。
【図14】各帯域に最適なハーモニクスの振幅を求める手順の一例を示すフローチャートである。
【図15】本発明の実施の形態となる音声符号化装置が用いられる携帯端末の送信側構成を示すブロック図である。
【図16】本発明の実施の形態となる音声符号化装置が用いられる携帯端末の受信側構成を示すブロック図である。
【符号の説明】
110 第1の符号化部、111 LPC逆フィルタ、113 LPC分析・量子化部、114 サイン波分析符号化部、115 V/UV判定部、120 第2の符号化部、121 雑音符号帳、122 重み付き合成フィルタ、123減算器、124 距離計算回路、125 聴覚重み付けフィルタ
Claims (11)
- 入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を分析する音声分析方法において、
入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、
上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いて、ピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程と
を有することを特徴とする音声分析方法。 - 上記スペクトルの形状はハーモニクス構造であること
を特徴とする請求項1記載の音声分析方法。 - 上記ピッチサーチおよびハーモニクスの振幅評価は、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいて行われること
を特徴とする請求項1記載の音声分析方法。 - 上記ピッチサーチは、上記粗ピッチサーチにより検出された粗ピッチに基づいて行われる、第1のピッチサーチおよび第1のピッチサーチより高精度の第2のピッチサーチとからなる高精度ピッチサーチであり、
上記第2のピッチサーチは上記周波数スペクトルの各帯域毎に行われること
を特徴とする請求項1記載の音声分析方法。 - 上記第1のピッチサーチは上記周波数スペクトルの全帯域に対して行われ、
上記第2のピッチサーチは上記周波数スペクトルの高域側および低域側の2つの帯域で独立に行われること
を特徴とする請求項1記載の音声分析方法。 - 入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化方法において、
入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、
上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程と
を有することを特徴とする音声符号化方法。 - 上記スペクトル形状はハーモニクス構造であり、
上記ピッチサーチおよびハーモニクスの振幅評価を同時に行う工程で、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいて行われる、第1のピッチサーチおよび第1のピッチサーチより高精度の第2のピッチサーチとからなる高精度ピッチサーチが行われること
を特徴とする請求項6記載の音声符号化方法。 - 上記第1のピッチサーチは上記周波数スペクトルの全帯域に対して行われ、上記第2のピッチサーチは上記周波数スペクトルの高域側および低域側の2つの帯域で独立に行われること
を特徴とする請求項6記載の音声符号化方法。 - 入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化装置において、
入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する手段と、
上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する手段と
を有することを特徴とする音声符号化装置。 - 上記スペクトル形状はハーモニクス構造であり、
上記ピッチサーチおよびハーモニクスの振幅評価を同時に行う手段は、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいて、第1のピッチサーチおよび第1のピッチサーチより高精度の第2のピッチサーチとからなる高精度ピッチサーチを行う構成を有すること
を特徴とする請求項9記載の音声符号化装置 - 上記第1のピッチサーチは上記周波数スペクトルの全帯域に対して行い、上記第2のピッチサーチは上記周波数スペクトルの高域側および低域側の2つの帯域で独立に行う構成を有すること
を特徴とする請求項9記載の音声符号化装置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27650196A JP4121578B2 (ja) | 1996-10-18 | 1996-10-18 | 音声分析方法、音声符号化方法および装置 |
US08/946,373 US6108621A (en) | 1996-10-18 | 1997-10-07 | Speech analysis method and speech encoding method and apparatus |
KR1019970052654A KR100496670B1 (ko) | 1996-10-18 | 1997-10-14 | 음성 분석 방법 및 음성 부호화 방법 및 장치 |
EP97308289A EP0837453B1 (en) | 1996-10-18 | 1997-10-17 | Speech analysis method and speech encoding method and apparatus |
CNB971260036A CN1161751C (zh) | 1996-10-18 | 1997-10-17 | 语音分析方法和语音编码方法及其装置 |
DE69726685T DE69726685T2 (de) | 1996-10-18 | 1997-10-17 | Verfahren zur Sprachanalyse sowie Verfahren und Vorrichtung zur Sprachkodierung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27650196A JP4121578B2 (ja) | 1996-10-18 | 1996-10-18 | 音声分析方法、音声符号化方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10124094A JPH10124094A (ja) | 1998-05-15 |
JP4121578B2 true JP4121578B2 (ja) | 2008-07-23 |
Family
ID=17570349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27650196A Expired - Fee Related JP4121578B2 (ja) | 1996-10-18 | 1996-10-18 | 音声分析方法、音声符号化方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6108621A (ja) |
EP (1) | EP0837453B1 (ja) |
JP (1) | JP4121578B2 (ja) |
KR (1) | KR100496670B1 (ja) |
CN (1) | CN1161751C (ja) |
DE (1) | DE69726685T2 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69836081D1 (de) * | 1997-07-11 | 2006-11-16 | Koninkl Philips Electronics Nv | Transmitter mit verbessertem harmonischen sprachkodierer |
JP4641620B2 (ja) * | 1998-05-11 | 2011-03-02 | エヌエックスピー ビー ヴィ | ピッチ検出の精密化 |
US6418407B1 (en) * | 1999-09-30 | 2002-07-09 | Motorola, Inc. | Method and apparatus for pitch determination of a low bit rate digital voice message |
JP3916834B2 (ja) * | 2000-03-06 | 2007-05-23 | 独立行政法人科学技術振興機構 | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 |
TW525146B (en) * | 2000-09-22 | 2003-03-21 | Matsushita Electric Ind Co Ltd | Method and apparatus for shifting pitch of acoustic signals |
US7366661B2 (en) | 2000-12-14 | 2008-04-29 | Sony Corporation | Information extracting device |
DE60138960D1 (de) * | 2000-12-14 | 2009-07-23 | Sony Corp | Codierung und decodierung |
KR100347188B1 (en) * | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
JP4381291B2 (ja) * | 2004-12-08 | 2009-12-09 | アルパイン株式会社 | 車載用オーディオ装置 |
KR20060067016A (ko) | 2004-12-14 | 2006-06-19 | 엘지전자 주식회사 | 음성 부호화 장치 및 방법 |
KR100713366B1 (ko) * | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 |
KR100827153B1 (ko) | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
WO2008001779A1 (fr) * | 2006-06-27 | 2008-01-03 | National University Corporation Toyohashi University Of Technology | procédé d'estimation de fréquence de référence et système d'estimation de signal acoustique |
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
US8620660B2 (en) * | 2010-10-29 | 2013-12-31 | The United States Of America, As Represented By The Secretary Of The Navy | Very low bit rate signal coder and decoder |
EP2795613B1 (en) | 2011-12-21 | 2017-11-29 | Huawei Technologies Co., Ltd. | Very short pitch detection and coding |
CN103426441B (zh) * | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
PL2922053T3 (pl) * | 2012-11-15 | 2019-11-29 | Ntt Docomo Inc | Urządzenie do kodowania audio, sposób kodowania audio, program do kodowania audio, urządzenie do dekodowania audio, sposób dekodowania audio, i program do dekodowania audio |
EP2980799A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
JP6759927B2 (ja) * | 2016-09-23 | 2020-09-23 | 富士通株式会社 | 発話評価装置、発話評価方法、および発話評価プログラム |
JP2022055464A (ja) * | 2020-09-29 | 2022-04-08 | Kddi株式会社 | 音声分析装置、方法及びプログラム |
KR102608344B1 (ko) * | 2021-02-04 | 2023-11-29 | 주식회사 퀀텀에이아이 | 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템 |
US11545143B2 (en) * | 2021-05-18 | 2023-01-03 | Boris Fridman-Mintz | Recognition or synthesis of human-uttered harmonic sounds |
KR102581221B1 (ko) * | 2023-05-10 | 2023-09-21 | 주식회사 솔트룩스 | 재생 중인 응답 발화를 제어 및 사용자 의도를 예측하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3681530A (en) * | 1970-06-15 | 1972-08-01 | Gte Sylvania Inc | Method and apparatus for signal bandwidth compression utilizing the fourier transform of the logarithm of the frequency spectrum magnitude |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
JPS5921039B2 (ja) * | 1981-11-04 | 1984-05-17 | 日本電信電話株式会社 | 適応予測符号化方式 |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
CA1252568A (en) * | 1984-12-24 | 1989-04-11 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate |
US5115240A (en) * | 1989-09-26 | 1992-05-19 | Sony Corporation | Method and apparatus for encoding voice signals divided into a plurality of frequency bands |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
CA2105269C (en) * | 1992-10-09 | 1998-08-25 | Yair Shoham | Time-frequency interpolation with application to low rate speech coding |
JP3343965B2 (ja) * | 1992-10-31 | 2002-11-11 | ソニー株式会社 | 音声符号化方法及び復号化方法 |
JP3137805B2 (ja) * | 1993-05-21 | 2001-02-26 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法 |
JP3475446B2 (ja) * | 1993-07-27 | 2003-12-08 | ソニー株式会社 | 符号化方法 |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
JP3277692B2 (ja) * | 1994-06-13 | 2002-04-22 | ソニー株式会社 | 情報符号化方法、情報復号化方法及び情報記録媒体 |
JP3557662B2 (ja) * | 1994-08-30 | 2004-08-25 | ソニー株式会社 | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 |
US5717819A (en) * | 1995-04-28 | 1998-02-10 | Motorola, Inc. | Methods and apparatus for encoding/decoding speech signals at low bit rates |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
JP3653826B2 (ja) * | 1995-10-26 | 2005-06-02 | ソニー株式会社 | 音声復号化方法及び装置 |
-
1996
- 1996-10-18 JP JP27650196A patent/JP4121578B2/ja not_active Expired - Fee Related
-
1997
- 1997-10-07 US US08/946,373 patent/US6108621A/en not_active Expired - Lifetime
- 1997-10-14 KR KR1019970052654A patent/KR100496670B1/ko not_active Expired - Fee Related
- 1997-10-17 EP EP97308289A patent/EP0837453B1/en not_active Expired - Lifetime
- 1997-10-17 CN CNB971260036A patent/CN1161751C/zh not_active Expired - Fee Related
- 1997-10-17 DE DE69726685T patent/DE69726685T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
KR100496670B1 (ko) | 2006-01-12 |
JPH10124094A (ja) | 1998-05-15 |
DE69726685D1 (de) | 2004-01-22 |
CN1187665A (zh) | 1998-07-15 |
EP0837453A3 (en) | 1998-12-30 |
DE69726685T2 (de) | 2004-10-07 |
US6108621A (en) | 2000-08-22 |
CN1161751C (zh) | 2004-08-11 |
EP0837453B1 (en) | 2003-12-10 |
KR19980032825A (ko) | 1998-07-25 |
EP0837453A2 (en) | 1998-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4121578B2 (ja) | 音声分析方法、音声符号化方法および装置 | |
JP4132109B2 (ja) | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
JP3707116B2 (ja) | 音声復号化方法及び装置 | |
US5778335A (en) | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding | |
JP3747492B2 (ja) | 音声信号の再生方法及び再生装置 | |
EP1262956B1 (en) | Signal encoding method and apparatus | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
JP4438127B2 (ja) | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 | |
JPH1091194A (ja) | 音声復号化方法及び装置 | |
US5983173A (en) | Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech | |
KR100538987B1 (ko) | 음성부호화방법및장치,피치검출방법 | |
US6012023A (en) | Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal | |
JP4826580B2 (ja) | 音声信号の再生方法及び装置 | |
JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
JP3896654B2 (ja) | 音声信号区間検出方法及び装置 | |
EP1164577A2 (en) | Method and apparatus for reproducing speech signals | |
JPH0537393A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050927 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050930 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060127 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071128 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080430 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110509 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110509 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120509 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130509 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |