[go: up one dir, main page]

JPH0833753B2 - 人の音声の符号化処理システム - Google Patents

人の音声の符号化処理システム

Info

Publication number
JPH0833753B2
JPH0833753B2 JP62171340A JP17134087A JPH0833753B2 JP H0833753 B2 JPH0833753 B2 JP H0833753B2 JP 62171340 A JP62171340 A JP 62171340A JP 17134087 A JP17134087 A JP 17134087A JP H0833753 B2 JPH0833753 B2 JP H0833753B2
Authority
JP
Japan
Prior art keywords
harmonic
frame
signal
frequency
remaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62171340A
Other languages
English (en)
Other versions
JPS6370300A (ja
Inventor
チャールズ ブロンソン エドワード
ソーンレイ ハートウェル ウォルター
エドワード ジャコブス トーマス
ハリー ケッチャム リチャード
バスチアアン クレイジン ウィレム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPS6370300A publication Critical patent/JPS6370300A/ja
Publication of JPH0833753B2 publication Critical patent/JPH0833753B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Devices For Supply Of Signal Current (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は音声処理、より詳細には、ボコーダーのアナ
ライザ セクションからの基本振動数及び高調波のサブ
セットのみを使用する音声の発声部分に対するシヌソイ
ダル モデル及び音声の非発声部分に対する励振線形予
測符号化フィルタを利用して音声の複製を生成するデジ
タル音声符号及び復号装置に関する。
発明の課題 音声メモリ及び音声レスポンス設備を含むデジタル音
声通信システムは記憶及び/或いは伝送に必要とされる
ビット速度を低減するために信号圧縮を使用する。従来
のデジタル音声符号化技術が、R.J.マックオーレイ(R.
J.McAulay)らによって、音響、音声、及び信号処理に
関するIEEE国際会議録(Proceedings of IEEE Internat
ional Conference on Acoustics,Speech,and Signal Pr
ocessing),1984年、Vol.2、頁27.6.1-27.6.4(サンジ
ェゴ、U.S.A.)に掲載の論文[シヌソイダル モデルを
使用する規模のみの再生(Magnitude-Only Reconstruct
ion Usinga Sinusoidal Speech Model)]に開示され
る。この論文においては音声の発声部分及び非発声部分
の両方を符号化及び復号するために、シヌソイダル音声
モデルが使用される。音声波形がボコーダーのアナライ
ザ部分内で音声波形を正弦波の総和としてモデル化する
ことによって分析される。この正弦波の総和は音声波形
の基本振動数と高調波から構成され、以下によって表わ
される。
S(n)=Σai(n)sin[φi(n)] (1) ここで、ai(n)及びφi(n)はそれぞれ任意の時
間における音声波形の時間とともに変化する振幅及び位
相を表わす。発声処理機能がアナライザ部分内でこれら
振幅及び位相を計算することによって遂行され、これら
値が合成部分に伝送され、ここで式(1)を使用して音
声波形の再生が行なわれる。
R.J.マックオーレイ(R.J.McAulay)らの論文は、ボ
コーダーのアナライザ部分による全ての高調波に対する
振幅及び位相の計算、及びこれら情報のボコーダーの合
成セクションへの伝送を開示する。位相は瞬時周波数の
積分であるという事実を使用して、合成セクションは基
本振動数及びその高調波振動数から対応する位相を計算
する。アナライザはこれら振動数をこれらがこのスペク
トル内のピークとして現われるため速いフーリエ変換
(fast Fourier transform,FFT)スペクトルから計算す
る。つまり、単にピーク検出を行なうことによって基本
及び高調波の振動数及び位相が計算される。アナライザ
によって基本及び全ての高調波の振動数に加えて振幅が
決定されると、この情報はシンセサイザに伝送される。
基本及び全ての高調波の振動数に加えてこれら振幅が
伝送されるため、この情報をアナライザからシンセサイ
ザに伝送するのに秒当たり多量のビットが必要となると
いう問題が存在する。これに加えて、これら振動数及び
振幅は、結果としてのスペクトル内のピークのみから直
接に計算されるため、これらピークを検出されるために
遂行されるFFT計算は非常に正確であることが要求さ
れ、結果として高度の計算が要求されるという問題が存
在する。
解決方法 本発明は、これら問題及び先行技術の短所を解決し、
技術上の向上を達成することを目的とする。本発明の方
法及び構造上の実施態様においては、音声の分析及び合
成がアナライザ内で基本振動数及びサブセットの高調波
振動数のみを計算し、シンセサイザ内で音声を音声の発
声部分に対するシヌソイダル モデルを利用して再生す
ることによって達成される。このモデルは、基本振動数
及びサブセットの高調波振動数を使用して構築され、残
りの高調波振動数は理論高調波振動数からの差異を与え
る計算を使用して基本振動数から計算される。基本振動
数及び高調波振動数の振幅は、アナライザからシンセサ
イザに直接に伝送されるのではなく、シンセサイザの所
でアナライザから受信される線形予測符号化(linear p
redictive coding,LPC)係数及びフレーム エネルギー
から計算される。こうして、振幅を直接に伝送するので
なく振幅を再生するために必要な情報を伝送することに
よって、これに要求されるビット数が非常に削減でき
る。
計算を簡素化するために、アナライザはFFTスペクト
ルから基本振動数及び高調波振動数をそれらピークを発
見し次にスペクトル内のどこにピークが起こるかをより
正確に決定するための挿間を行なうことによつて計算す
る。これは低い振動数分解能のFFT計算を使用すること
を可能とする。
個々の音声フレームに対して、シンセサイザはフレー
ム エネルギー、セットの音声パラメータ、基本振動
数、及び基本振動数から派生された個々の理論高調波振
動数とサブセットの実際の高調波振動数との間の差を表
わすオフセット信号から成る符号化情報に応答する。シ
ンセサイザはオフセット信号及び基本振動数信号に応答
してそのオフセット信号に対応するサブセットの高調波
位相信号を計算し、また、基本振動数に応答して残りの
高調波位相信号を計算する。シンセサイザはフレーム
エネルギー及びセットの音声パラメータに応答して基本
振動数信号、サブセットの高調波位相信号、及び残りの
高調波位相信号の振幅を計算する。シンセサイザは次に
基本信号、高調波位相信号及びこれら信号の振幅に応答
して音声を再生する。
1つの実施態様においては、シンセサイザは、この残
りの高調波振動数信号を基本振動数に高調波の数を掛け
て計算し、次に結果としての振動数を変化させて残りの
高調波位相信号を計算する。
第2の実施態様においては、シンセサイザはこの残り
の高調波振動数信号を最初に基本振動数信号に高調波の
数を掛けることによって理論高調波振動数信号を計算す
ることによって生成する。シンセサイザは次に残りの高
調波振動数信号に対応する理論高調波振動数信号を個々
が元のサブセットの高調波位相信号と同数の高調波を持
つ複数のサブセットにグループ化し、次に個々のオフセ
ット信号を個々の複数のサブセットの対応する残りの理
論振動数信号に加えることによって修正された残りの高
調波振動数信号を生成する。シンセサイザは次にこの修
正された残りの高調波振動数信号を使用して残りの高調
波位相信号を計算する。
第3の実施態様においては、シンセサイザは第2の実
施態様と類似の方法で残りの高調波振動数信号を計算す
るが、オフセット信号の順番が、これら信号が修正され
た残りの高調波振動数信号を生成するために理論高調波
振動数信号に加えられる前に入れ替えられる点が異な
る。
これに加え、シンセサイザは基本振動数信号及び高調
波振動数信号に対する振幅を個々のフレームに対するセ
ットの音声パラメータから個々の高調波振動数信号の未
スケール(unscaled)エネルギーを計算することによっ
て計算し、これら未スケール エネルギーを高調波振動
数信号の全てを通じて総和する。
シンセサイザは、次に個々の高調波信号に対する高調
波エネルギー、未スケールの総和エネルギー、及びフレ
ーム エネルギーを使用して個々の高調波位相信号の振
幅を計算する。
再生音声の品質を向上させるため、基本振動数信号及
び計算高調波振動数信号は音声フレームの真ん中の1つ
のサンプルを表わすものと想定され、シンセサイザは挿
間を使用して基本及び高調波振動数信号の両方に対して
音声フレームを通じての連続サンプルを生成する。類似
の挿間が基本及び高調波振動数の両方の振幅に対しても
遂行される。隣接するフレームが非発声フレームである
場合は、基本及び高調波信号の両方の振動数は発声フレ
ームの中心から非フレームまで一定であると想定され、
一方、振幅は発声フレームと非発声フレームとの間の境
界の所で“0"であると想定される。
非発声フレームの符号化には、セットの音声パラメー
タ、多重パルス励振情報、及び励振タイプ信号並びに基
本振動数信号が含まれる。シンセサイザは励振タイプ信
号によってノイズ様励振を使用することが指示される非
発声フレームに応答してノイズ様励振を持つセットの音
声パラメータによって定義されるフィルタを励振する。
さらに、シンセサイザは多重パルスを使用することを指
示する励振タイプ信号に応答して、多重パルス励振情報
を使用してセットの音声パラメータ信号から構成される
フィルタを励振する。これに加えて、発声フレームから
非発声フレームへの遷移が起こった場合は、最初に発声
フレームからのセットの音声パラメータがフィルタをセ
ットするのに使用され、このフィルタが非発声領域の間
も指定の励振情報を使用して励振される。
実施例の説明 第1図及び第2図は、それぞれ本発明の焦点である音
声アナライザ及び音声シンセサイザを示す。第1図の音
声アナライザ100は経路120を介して受信されるアナログ
音声信号に応答してこれら信号をチャネル139を介して
第2図のシンセサイザ200に伝送するためには低ビット
速度にて符号化する。好ましくは、チャネル139は通信
伝送経路あるいは記憶媒体とされ、後に合成された音声
を必要とする各種の用途に対する音声合成が提供できる
ようにされる。アナライザ100はチャネル120を介して受
信される音声を3つの異なる符号化技術を使用して符号
化する。音声の発声領域(有声区域)の間に、アナライ
ザ100はシンセサイザ200によって音声のシヌソイダル
モデリング及び再生に使用される情報の符号化を行な
う。音声の領域は、基本振動数が声帯による空気の流れ
に起因する場合は、発声領域と分類される。非発声領域
(無声区域)においては、シンセサイザ100は適当な励
振を持つ線形予測符号化(linear predictive coding,L
PC)フィルタを励振することによってシンセサイザ200
内で音声の複製を可能とする情報を符号化する。励振の
タイプは、個々の非発声フレームに対してアナライザ10
0によって決定される。破裂音子音及び発声領域と非発
声領域との間の遷移とを含む非発声領域において、多重
パルス励振が符号化されシンセサイザ200に送られる。
ある非発声フレームに対して多重パルス励振が符号化さ
れない場合は、アナライザ100はシンセサイザ200にLPC
フィルタを励振するのにホワイト ノイズ励振を使用す
ることを指示する信号を送る。
次に、シンセサイザ100の動作全般をさらに詳細に説
明する。アナライザ100はアナログ/デジタル コンバ
ータ101からフレームにて受信され、フレーム セグメ
ンタ102によってセグメント化されたデジタルサンプル
を処理する。個々のフレームは、好ましくは180個のサ
ンプルから成る。あるフレームが発声領域であるか非発
声領域であるかの決定は、以下の方法で行なわれる。LP
C計算器111はフレームのデジタル サンプルに応答して
人の声帯(vocal tract)をモデル化するLPC係数及び残
留信号を生成する。これら係数及びエネルギーの生成は
合衆国特許第3,740,467号に開示され、本発明の譲受人
と同一譲受人に譲渡された装置、あるいは他の当分野に
おいて周知の装置によって遂行される。ピッチ検出器10
9は経路122を介して受信される残留信号及び経路121を
介してフレーム セグメンタ ブロック102から受信さ
れる音声サンプルに応答して、そのフレームが発声領域
であるか非発声領域であるか決定する。ピッチ検出器10
9が、フレームが発声領域であることを決定したとき
は、ブロック141から147がフレームのシヌソイダル符号
化を遂行する。一方、そのフレームが非発声領域である
と決定された場合は、ノイズ/多重パルス判定ブロック
112によってシンセサイザ200がこれもLPC計算器ブロッ
ク111によって計算されるLPC係数によって定義されるフ
ィルタを励振するためにノイズ励振を使用すべきかある
いは多重パルス励振を使用すべきかが決定される。ノイ
ズ励振を使用する場合は、この事実がパラメータ符号化
ブロック113を介してシンセサイザ200に伝えられる。一
方、多重パルス励振を使用する場合は、ブロック110は
パルス トレイン位置及び振幅を決定し、この情報を経
路128及び129を介して後に第2図のシンセサイザ200に
送るためにパラメータ符号化ブロック113に送る。
アナライザ100とシンセサイザ200の間の通信チャネル
がパケットを使用して実現される場合の発声フレームに
対して伝送されるパケットが第3図に示され、ホワイト
ノイズ励振を使用する非発声フレームに対して伝送さ
れるパケットが第4図に示され、そして多重パルス励振
を使用する非発声フレームに対するパケットが第5図に
示される。
次に、非発声フレームに対するアナライザ100の動作
を詳細に説明する。ピッチ検出器109が経路130を介して
そのフレームが非発声領域であることを伝えると、ノイ
ズ/多重パルス判定ブロック112は、この信号に応答し
てノイズ励振を使用すべきか多重パルス励振を使用すべ
きかを決定する。多重パルス励振を使用する場合は、こ
の事実を示す信号が経路124を介して多重パルス アナ
ライザ ブロック110に送られる。このアナライザは、
経路124上のこの信号及びピッチ検出器109から経路125
及び126を介して伝送される2つのセットのパルスに応
答する。多重パルス アナライザ ブロック110は選択
されたパルスの位置並びに選択されたパルスの振幅をパ
ラメータ符号器113に送る。この符号器はまた経路123を
介してLPC計算器111から受信されるLPC係数に応答して
第5図に示されるパケットを生成する。
ノイズ/多重パルス判定ブロック112がノイズ励振を
使用することを決定した場合は、これはこの事実を経路
124を介してパラメータ符号器113に信号を送ることによ
って示す。符号器113はこの信号に応答してブロック111
からのLPC係数並びにブロック115によって残留信号から
計算された利得を使用して第4図に示されるパケットを
生成する。
次に発声フレームに対するアナライザ100の動作を詳
細に説明する。発声フレームの間にアナライザ100から
シンセサイザ200に送られる情報が第3図に示される。L
PC係数はLPC計算器110によって生成され径路123を介し
てパラメータ符号器113に送られ;フレームが発声フレ
ームであることを示す指標がピッチ検出器109から径路1
30を介して送られる。発声領域の基本振動数はピッチ検
出器109によって径路131を介してピッチ周期として送ら
れる。パラメータ符号器113はこのピッチ周期に応答し
て、このピッチ周期を基本振動数に変換した後にチャネ
ル139上に送る。フレーム内の音声の総エネルギー、eo
がエネルギー計算器103によって計算される。計算器103
はデジタル サンプルの総和の二乗の平方根をとること
によってeoを生成する。このデジタル サンプルがフレ
ーム セグメンタ102から径路121を介して受信され、エ
ネルギー計算器103は結果としての計算エネルギーを径
路135を介してパラメータ符号器113に送る。
個々のフレーム、例えば、第6図に示されるフレーム
Aは好ましくは180のサンプルから構成される。音声フ
レーム セグメンタ141は、アナログ/デジタル コン
バータ101からのデジタル サンプルに応答してデータ
サンプルのセグメントを抽出する。個々のセグメントは
第6図のセグメントA及びフレームAによって示される
ように1つのフレームをオーバラップする。1つのセグ
メントは、好ましくは256個のサンプルから構成され
る。シヌソイダル分析を遂行する前にフレームをオーバ
ラップすることの目的は、フレームの終端ポイントによ
り多くの情報を提供することにある。ダウン サンプラ
142は発声フレーム セグメンタ141の出力に応答して、
256個のサンプル セグメントのサンプルを1つおきに
選択する。結果として、好ましくは、128サンプルのサ
ンプル群が得られる。このダウン サンプリングの目的
は、ブロック143及び114によって遂行される計算の繁雑
さを削減することにある。
ハミング ウインドウ ブロック143はブロック142か
らのデータ、snに応答して、以下の式によって与えられ
るウインドニング動作を遂行する。
このウインドニング動作の目的は、フレームの終端ポ
イントの所の不連続性を排除し、スペクトル分解能を向
上させることにある。ウインドニング動作が遂行された
後、ブロック144は、最初、ブロック143からのサンプル
にゼロを挿入する。この挿入の結果として、以下の式に
よって定義される、好ましくは、256個のデータ ポイ
ントから成る新たなシーケンスが生成される。
次にブロック144によって以下の式によって定義され
る離散フーリエ変換が遂行される。
ここで、▲sp n▼はこのゼロを挿入されたシーケンス
spのn番目のポイントを表わす。式4の評価は速いフー
リエ変換(fast Fourier transform,FFT)法を使用して
行なわれる。FFT計算を遂行した後、ブロック144は式
(4)の計算を遂行した結果とて得られる個々の複素振
動数データ ポイントから以下の式によってスペクトル
Sを得る。
Sk=FkFk *,0k255, (5) ここで、*は複素共役を表わす。
高調波ピーク ロケータ145はピッチ検出器109によっ
て計算された周期及びブロック144によって計算された
スペクトルに応答して基本振動数の後の最初の5つの高
調波に対応するスペクトル内のピークを決定する。この
探索は高調波の数に基本振動数を掛けた値に等しい理論
的高調波振動数をスペクトルの開始ポイントとして使用
し、この理論高周波からの所定の距離内の最も高いサン
プルに向かって傾斜を昇っていくことによって行なわれ
る。
このスペクトルは限られた数のデータ サンプルに基
づくため、高周波挿間器146が高調波ピーク ロケータ1
45によって決定された高調波ピークの回りの二次挿間を
遂行する。これによってその高調波に対して決定された
値がずばりの値により一致される。個々の高調波に対し
て使用されるこの二次挿間は以下の式によって定義され
る。
ここで、Mは256である。S(q)は発見されたピーク
により近いサンプル ポイントを表わし、高調波振動数
はPkにサンプリング周波数を掛けた値に等しい。
高調波計算器147はこの修正された高調波振動数及び
ピッチに応答して理論高調波ピークと計算高調波ピーク
との間のオフセットを計算する。このオフセットは次に
後にシンセサイザ200に送るためパラメータ符号器113に
送られる。
第2図にシンセサイザ200が示される。シンセサイザ
はチャネル139を介して受信される声帯モデル及び励振
情報あるいはシヌソイダル情報に応答して第1図のアナ
ライザ100によって符号化された元のアナログ音声の複
製を生成する。受信された情報がフレームが発声領域で
あることを示す場合は、ブロック211から214がシヌソイ
ダル合成を遂行し式(1)に従って元の発声フレーム情
報が再生され、この再生された音声がセレクタ206を介
してデジタル/アナログ コンバータ208に送られる。
コンバータ208は受信されたデジタル情報をアナログ信
号に変換する。
受信された符号化情報が非発声フレームであると指定
される場合は、ノイズ励振あるいは多重パルス励振を使
用して合成フィルタ207が励振される。径路227を介して
送られるノイズ/多重パルス、N/M信号によってノイズ
励振を使用するか多重パルスを使用するかが決定され
る。N/M信号はまたセレクタ205を動作し指定の発生器20
3あるいは204のいずれかの出力を合成フィルタ207に送
る。合成フィルタ207はLPC係数を使用して声帯をモデル
化する。これに加えて、非発声フレームが非発声領域の
最初のフレームである場合は、後続の発声フレームから
径路225を介してLPC係数が得られ、これが合成フィルタ
207を初期化するのに使用される。
次に発声フレームが受信された場合の動作を説明す
る。第3図に示される発声情報パケットが受信される
と、チャネル復号器201は径路221を介して基本振動数
(ピッチ)を、そして径路222を介して基本振動数オフ
セット情報を低高調波振動数計算器212及び高高調波振
動数計算器211に送る。音声フレーム エネルギー、eo
及びLPC係数がそれぞれ経路220及び216を介して高調波
振幅計算器213に送られる。発声/非発声(voiced/unvo
iced,V/U)信号が高調波振動数計算器211及び212に送ら
れる。V/U信号が“1"に等しいことはそのフレームが発
声フレームであることを意味する。低高調波計算器212
は“1"に等しいV/U信号を受信し、これに応答して基本
振動数及び高調波振動数オフセット情報に基づいて最初
の5つの高調波振動数を計算する。計算器212は次にこ
の最初の5つの高調波振動数を経路223を介してブロッ
ク213及び214に送る。
高高調波振動数計算器211は、基本振動数及びV/U信号
に応答してフレームの残りの高調波振動数を計算し、こ
れら高調波振動数を経路229を介してブロック213及び21
4に送る。
高調波振幅計算器213は計算器212及び211からの高調
波振動数、経路220を介して受信されるフレーム エネ
ルギー情報、及び経路216を介して受信されるLPC係数に
応答してこれら高調波振動数の振幅を計算する。シヌソ
イダル発生器214は計算器211及び212から受信される振
動数情報に応答して高調波位相情報を決定し、この位相
情報及び計算器213から受信される高調波振幅を使用し
て式(1)によって示される計算を遂行する。
チャネル復号器201が第4図に示されるようなノイズ
励振パケットを受信すると、チャネル復号器201は経路2
27を介してセレクタ205にホワイト ノイズ発生器203の
出力を選択するように指示する信号を送り、また経路21
5を介してセレクタ206に合成フィルタ207の出力を選択
するように指示する信号を送る。これに加えて、チャネ
ル復号器201は経路228を介してホワイトノイズ発生器20
3に利得を送る。この利得は第1図に示されるアナライ
ザ100の利得計算器115によって生成される。合成フィル
タ207は、チャネル復号器201から経路216を介して受信
されるLPC係数及びセレクタ205を介して受信されるホワ
イトノイズ発生器203の出力に応答して音声のデジタル
サンプルを生成する。
チャネル復号器201がチャネル139から第5図に示され
るようなパルス励振パケットを受信すると、復号器201
は受信されたパルスの位置及び振幅を経路210を介して
パルス発生器204に送る。これに加えて、チャネル復号
器201は経路227を介してセレクタ205がパルス発生器204
の出力を選択するように指令し、この出力を合成フィル
タ207に送る。合成フィルタ207及びデジタル/アナログ
コンバータ208は次に音声を再生する。コンバータ208は
コンバータの出力の所に内蔵ロー パス フィルタを持
つ。
次に発声フレームのシヌソイダル合成を遂行するブロ
ック211,212,213及び214の動作を詳細に説明する。低高
調波振動数計算器212は経路211を介して受信される基本
振動数Frに応答して経路222を介して受信される高調波
オフセットhoiを使用して、好ましくは、5つのサブセ
ットの高調波振動数を計算する。理論高調波振動数tsi
は、単に高調波の番号に基本振動数を掛けることによっ
て得られる。個々の高調波に対するi番目の振動数は以
下の式によって定義される。
hfi=tsi+hoifr, 1i5, ここで、frはスペクトル サンプル ポイント間の振動
数分解能を表わす。
計算器211は基本振動数Frに応答して以下の式を使用
して高調波振動数hfi(ここでi≧6)を生成する。
hfi=iFr,6ih, (7) ここで、hは現フレーム内の高調波の最高数を表わす。
計算器211のもう1つの実施態様においては、基本振
動数に応答して以下の式を使用して第5番目の高調波以
上の高調波振動数が計算される。
hfi=na,6ih, (8) ここで、hは高調波の最高数を表わし、aはこのシンセ
サイザで許される振動数分解能を表わす。好ましくは、
変数aは2Hzに選択される。i番目の振動数に対する整
数nは以下の式を最小化することによって発見され。
(iFr-na)2 (9) ここで、iFrはi番目の理論高調波振動数を表わす。こ
うして、異なるパターンの小さなオフセットが生成され
る。
計算器211のもう1つの実施態様においては、基本振
動数及び好ましくは最初から5つの高調波振動数に対す
るオフセットに応答して好ましくは5番目の高調波以上
の高調波振動数がこれらオフセットを残りの高調波を5
つのグループに分けこれらグループにこれらオフセット
を加えることによって生成される。これらグループは
(k1+1,...2k1),(2k1+,...3k1),...によって表わ
される。ここで、好ましくはk1=5とされる。以下の式
はmk1+1から(m+1)k1にて表わされる一群の高調
波に対するこの実施態様を定義する。
hfj=JFr+hoj ここで j=mk1+1,...(m+1)k1 に対して {hoj}=PermA{hoi}i=1,2....,k1 (10) ここで、mは整数である。
これら置換は変数m(グループ番号)の関数である。
減速として、高調波の数がk1の倍数でないときは最後の
グループは完結しないことに注意する。これら置換は周
知の技術を使用して個々の音声フレームに対してランダ
ムに、決定論的に、あるいは発見的に定義される。
計算器211及び212は、基本振動数及び個々の高調波振
動数に対して1つの値を生成する。この値は合成される
音声フレームの中心に位置するものと想定される。フレ
ーム内の個々のサンプルに対する残りのサンプル当たり
の振動数は隣接する発声フレームの振動数あるいは隣接
する非発声フレームに対する所定の境界状態の線形挿間
によって得られる。この挿間はシヌソイダル発生器214
内で遂行されるが、これに関しては後に詳細に説明され
る。
高調波振幅計算器213は計算器211及び212によって計
算された振動数、計算器216を介して受信されるLPC係
数、及び経路220を介して受信されるフレーム エネル
ギーeoに応答して高調波振幅を計算する。個々の発声フ
レームに対するLPC反射係数は個々のフレームの間の声
帯を表わす音響チューブ モデルを定義する。この情報
から相対高調波振幅が決定される。ただし、LPC係数は
声帯の構造をモデル化するもので、個々のこれら高調波
振動数のエネルギーの量を表わす情報は含まない。この
情報は計算器213によって経路220を介して受信されるフ
レーム エネルギーを使用して決定される。個々のフレ
ームに対して、計算器213は高調波振幅を計算する。こ
れは、振動数の計算と同様にこの振幅がフレームの中心
に位置するものと想定する。次に線形挿間を使用し、隣
接する発声フレームからの振幅情報あるいは隣接する非
発声フレームに対する所定の境界状態を使用してこのフ
レームを通じて残りの振幅が計算される。
これら振幅は声帯が以下によって表わされるオール
ポール フィルタにて記述できることから発見できる。
ここで、 である。
定義により、係数aoは1である。オール ポール フ
ィルタを記述するのに必要な係数am,1≦m≦10は、マー
ケル、J.D.(Markel,J.D.)、及びグレイ、Jr.A.H.(Gr
ay,Jr.,A.H.)による文献[音声の線形予測(Linear Pr
ediction of Speech)]、スプリンガ バーラッグ(Sp
ringer-Berlag)、ニューヨーク、ニューヨーク、1976
年に説明の反復ステップアップ手順を使用して経路216
を介して受信される反射係数から得ることができる。式
(11)及び式(12)にて記述されるフィルタを使用して
以下の方法で個々のフレームに対する高調波成分の振幅
が計算される。計算されるべき高調波振幅をhai,0≦i
≦hと表わすものとする。ここで、hは高調波の数を表
わす。すると、未スケール(unscaled)の高調波寄与値
hei,0≦i≦hが個々の高調波振動数hfiに対して以下の
式から得られる。
ここで、srはサンプリング速度を表わす。全高調波の
総未スケール エネルギーEは以下によって得られる。
ここで、 と仮定すると、i番目のスケール済み(scaled)高調波
振幅haiは以下によって計算できる。
ここで、eoはアナライザ100によって計算された伝送さ
れた音声フレームのエネルギーを表わす。
次にシヌソイダル発生器214がいかに計算器211,212,
及び213から受信される情報を使用して式(1)によっ
て記述される計算を遂行するか説明する。任意のフレー
ムに対して、計算器211,212,及び213は発生器214に対し
てそのフレーム内の個々の高調波に対する1つの振動数
及び振幅を与える。発生器214はこれら振動数及び振幅
の両方の線形挿間を遂行し、振動数情報を位相情報に変
換し、フレームを通じての個々のサンプル ポイントに
対する位相及び振幅を与える。
この線形挿間は以下のように遂行される。第7図は5
つの音声フレーム及び0番目の高調波振動数であるとも
みなされる基本振動数に対するその線形挿間を示す。他
の高調波も類似に表現できる。大まかに言って、ある発
声フレームに対して3つの境界状態が存在する。第1の
場合、発声フレームは1つの発行非発声フレーム及び1
つの後続発声フレームを持つ。第2の状態では、音声フ
レームは他の発声フレームによってとりまかれる。第3
の状態では、発声フレームは1つの先行発声フレーム及
び1つの後続非発声フレームを持つ。第7図において、
フレームc、ポイント701から703は第1の状態を表わ
し;振動数h▲fc i▼は701によって定義されるこのフレ
ームの開始から一定であると想定される。基本振動数に
対しては、iは0である。cはこれがcフレームである
ことを示す。フレームbはフレームcの後に来るが、ポ
イント703から705によって定義され、第2の状態を表わ
し;線形挿間がポイント702と704の間でそれぞれポイン
ト702と704の間で起こる振動数h▲fc i▼及びh▲fb i▼を
使用して遂行される。第3の状態はポイント705から707
に延びるフレームによって代表され、フレームaに続く
フレームは非発声フレーム、つまりポイント707から708
である。この状態においては、高調波振動数h▲fa i▼は
フレームaの終端のポイント707まで一定である。
第8図は振幅の挿間を示す。連続の発声フレーム、例
えば、フレームc及びbにて定義されるフレームでは、
挿間は振動数に対する挿間と同一である。ただし、先行
フレームが非発声フレームである場合、例えば、フレー
ムcの前にポイント800から801によって定義される非発
声フレームが存在するような関係においては、このフレ
ームの開始点はポイント801によって示されるように0
の振幅を持つものと想定される。同様に、発声フレーム
の後に非発声フレームが続く場合、例えば、フレームa
とポイント807から808によって表わされるフレームの関
係では、終端ポイント、例えば、ポイント807は0の振
幅を持つものと想定される。
発生器214は上に説明の挿間を以下の式を使用して遂
行する。n番目のサンプルのパーサンプル(per-sampl
e)位相は以下によって定義される。
ここで、On,iはi番目の高調波のパーサンプル(per-sa
mple)位相を表わし、srは出力サンプル速度を表わす。
これら位相を解くためには、パーサンプル振動数Wn,i
知ることのみが必要であり、これらパーサンプル振動数
は挿間を行なうことによって発見できる。第7図のフレ
ームbのように発声フレームが隣接する発声フレームに
対する振動数の線形挿間は以下によって定義される。
及び ここで、hminは隣接するどちらかのフレーム内の高調波
の最小数を表わす。非発声フレームからの発声フレーム
への遷移、例えば、フレームcは以下の式によってパー
サンプル高調波振動数を計算することによって処理され
る。
発声フレームから非発声フレームへの遷移、例えば、
フレームaは以下の式によってパーサンプル高調波振動
数を計算することによって処理される。
hminが2つの隣接するフレーム内のいずれかの高調波
の最低数を表わすものとすると、フレームbがフレーム
cより多くの高調波を持つような場合は、式(20)を使
用してhmin以上の高調波に対するパーサンプル高調波振
幅数が計算される。フレームbがフレームaより多数の
高調波を持つ場合は、式(21)を使用してhmin以上の高
調波に対するパーサンプル高調波振動数が計算される。
このパーサンプル高調波振幅An,iはhaiから発声フレ
ームbに対する以下の式によって定義されるように類似
の方法で計算される。
及び フレームが発声領域の開始、例えば、フレームcの開
始ポイントであるような場合は、パーサンプル高調波振
幅は以下によって決定される。
及び ここで、hはフレーム内の高調波の数を表わす。
フレームが発声領域の終端である場合、例えば、フレ
ームaのような場合は、パーサンプル振幅は以下によっ
て計算される。
ここで、hはフレームa内の高調波の数を表わす。あ
るフレーム、例えば、フレームbが先行発声フレーム、
例えば、フレームcより多くの高調波を持つ場合は、式
(24)及び式(25)を使用してhmin以上の高調波に対す
る高調波振幅が計算される。フレームbがフレームaよ
り多数の高調波を持つ場合は、式(18)を使用してhmin
以上の高調波に対する高調波振幅が計算される。
次に、第1図に示されるアナライザを詳細に説明す
る。第10図及び第11図は、第1図のフレーム セグメン
タ141を実現するのに必要なステップを示す。個々のサ
ンプルsが、A/Dブロック101から受信されると、セグメ
ンタ141は個々のサンプルを循環バッファBに格納す
る。ブロック1001から1005は、iインデックスを使用し
てサンプルを循環バッファBに連続的に格納する。判定
ブロック1002によって、iとバッファの終端を定義する
Nとを比較することによって循環バッファBが終端に到
達したか決定される。Nはまた、そのスペクトル分析に
おけるポイントの数を表わす。好ましくは、Nは256と
され、Wは180とされる。iが順番バッファの終端を越
えると、ブロック1003によってiが0にセットされ、次
にサンプルが循環バッファBの始めから格納される。判
定ブロック1005によって循環バッファB内に格納された
サンプルの数がカウントされ;Wによって定義される1つ
のフレームを構成する好ましくは180個のサンプルが格
納されると、ブロック1006が実行され;まだWに達して
ない場合は、1007が実行され、第10図に示されるステッ
プは単にブロック101からの次のサンプルを待つ。180ポ
イントが受信れると、第10図及び第11図のブロック1006
から1106によって循環バッファBからの情報がアレイC
に送られ、アレイC内の情報が次に第6図に示されるセ
グメントの1つを記述する。
ダウン サンプラ142及びハミング ウインドウ ブ
ロック143は第11図のブロック1107から1110によって実
現される。ブロック142によって遂行されるダウン サ
ンプリングはブロック1108によって実現され;式(2)
によって定義されるハミング ウインドニング機能はブ
ロック1109によって遂行される。判定ブロック1107及び
コネクタ ブロック1110によってアレイC内に格納され
るデータ ポイントの全てに対するこれら動作の遂行が
制御される。
第12図のブロック1201から1207はFFTスペクトル規模
ブロック144の機能を実現する。式(3)によって定義
されるゼロの挿入はブロック1201から1203によって遂行
される。ブロック1201から1203から結果として得られる
データ ポイントに関する速いフーリエ変換の実現はブ
ロック1204によって遂行され、これによって式(4)に
よって定義されるのと同一結果が得られる。ブロック12
05から1207は式(5)によって定義されるスペクトルを
得るのに使用される。
第1図のブロック145,146及び147は第12図及び第13図
のブロック1208から1314によって示されるステップによ
って実現される。第1図の経路131を介してピッチ検出
器109から受信されるピッチ周期はブロック1208によっ
て基本振動数Frに変換される。
この変換は高調波ピーク ロケータ145及び高調波計
算器147の両方によって遂行される。基本振動数が、好
ましくは、60Hzと決定される所定の振動数Q以下である
場合は、判定ブロック1209は制御をブロック1301及び13
02にパスし、ここで高調波オフセットが0にセットされ
る。基本振動数が所定の値Qより大きな場合は、判定ブ
ロック1209によって制御が判定ブロック1303にパスされ
る。判定ブロック1303及びコネクタ ブロック1314は、
好ましくは、高調波1から5のサブセットの高調波オフ
セットの計算を制御する。初期高調波はk0によって定義
され1にセットされ、上限高調波値はk1によって定義さ
れ5にセットされる。ブロック1304は現在計算中の高調
波がスペクトルS内に発見されるかの初期推定を行な
う。ブロック1305から1308は現在計算中の高調波と関連
するピークの位置を探索し発見する。これらブロックは
高調波ピーク ロケータ145を実現する。ピークの位置
が発見されると、ブロック1309によってブロック146の
高調波挿間機能が遂行される。
高調波計算器147はブロック1310から1313によって実
現される。最初、現在計算中の高調波に対する未スケー
ル オフセットがブロック1310の実行によって得られ
る。次に、ブロック1310の結果がブロック1311によって
スケールされ、整数が得られる。判定ブロック1321によ
って検出された高調波ピークがエラーでないことを保証
するためオフセットが所定の範囲内にあるかチェックさ
れる。計算されたオフセットが所定の範囲より大きな場
合は、オフセットがブロック1313の実行によって0にセ
ットされる。全ての高調波オフセットが計算されると、
制御は第1図のパラメータ符号器113にパスされる。
第14図から第19図は第2図のシンセサイザ200を実現
するためにプロセッサ803によって実行されるステップ
の詳細を示す。第2図の高調波振動数計算器212及び211
は第14図のブロック1418から1424によって実現される。
ブロック1418はこの動作において使用されるパラメータ
を初期化する。ブロック1419から1420は最初に伝送ピッ
チとして得られる基本振動数にk+1を掛けることによ
って個々の高調波振動数h▲fi k▼を計算する。全ての理
論高調波振動数が計算されたら、スケールされ伝送され
たオフセットがブロック1421から1424によって最初の5
つの理論高調波振動数に加えられる。定数k0がk1がブロ
ック1421によってそれぞれ“1"及び“5"にセットされ
る。
高調波振幅計算器213は第8図のプロセッサ803によっ
て第14図及び第15図のブロック1401から1417を実行する
ことによって実現される。ブロック1401から1407は式
(11)によって与えられる声帯のオール ポール フィ
ルタ記述に対するLPC反射係数を変換するためのステッ
プアップ手順を実行する。ブロック1408から1412は個々
の高調波に対して式(13)にて定義される未スケール高
調波エネルギーを計算する。ブロック1413から1415は式
(14)によって定義される総未スケール エネルギーE
を計算するのに使用される。ブロック1416及び1417は式
(16)によって定義されるi番目のフレームのスケール
された高調波振幅h▲ai b▼を計算する。
第15図から第18図のブロック1501から1521及びブロッ
ク1601から1614はプロセッサ803によって第7図及び第
8図に示されるように個々の高調波に対する振動数及び
振幅を挿間するために遂行される動作を示す。これら動
作は、フレームの最初の部分をブロック1501から1521に
よって処理し、フレームの第2の部分をブロック1601か
ら1514によって処理することによって遂行される。第7
図に示されるように、フレームcの最初の半分はポイン
ト701から702に延び、フレームcの後半はポイント702
から703に延びる。これらブロックによって遂行される
最初の動作は先行フレームが発声フレームであるか非発
声フレームであるか決定する動作である。
より具体的には、第15図のブロック1501によって初期
値がセットされる。判定ブロック1502は先行フレームが
発声フレームであるか非発声フレームであるかの判定を
行なう。先行フレームが非発声フレームである場合は、
判定ブロック1504から1510が実行される。第17図のブロ
ック1504及び1507はフレームの開始において個々の高調
波に対する高調波振動数及び振幅の最初のデータ ポイ
ントを位相に対してh▲fi c▼、そして振幅に対して に初期化する。これは第7図及び第8図の図解に対応す
る。フレームの最初のデータ ポイントに対する初期値
がセットしたら次にこのフレームに対する残りの値がブ
ロック1508から1510を実行することによってセットされ
る。高調波振動数の場合は、これら振動数は第7図に示
されるように中心振動数にセットされる。高調波振幅の
場合は第8図のフレームcに対して示されるように個々
のデータ ポイントがフレームの開始点の所のゼロから
中点振幅に向かって線形近似セットされる。
ブロック1502において先行フレームが発声フレームで
あると判定された場合は、第16図の判定ブロックが遂行
される。判定ブロック1503は先行フレームが現在のフレ
ームより多くの高調波を持つか否かを決定する。高調波
の数は変数shによって示される。どちらのフレームが多
くの高調波を持つかによって、ブロック1505が実行され
るかブロック1506が実行されるかが決定される。変数h
minはいずれかのフレームの高調波の最低数にセットさ
れる。ブロック1505あるいは1506が実行された後、ブロ
ック1511及び1512が実行される。これらブロックは振動
数及び振幅の両方に対する現フレームの初期ポイントを
先行フレームの最終ポイントを計算することによって決
定する。この動作を全ての高調波に対して遂行した後
に、ブロック1513から1515によって全ての高調波に対す
る振動数及び振幅の両方に対する個々のサンプル毎の値
がそれぞれ式(22)及び式(26)によって定義されるよ
うに計算される。
変数hminにて定義されるように全ての高調波に対する
パーサンプル振動数及びパーサンプル振幅が計算された
ら、ブロック1516から1521が現在のフレームが先行フレ
ームよりも多くの高調波を持つ事実が考慮されるように
計算される。現在のフレームが先行フレームよりも多数
の高調波を持つ場合は、判定ブロック1516は制御をブロ
ック1517に渡す。現在のフレーム内に先行フレームより
多数の高調波が含まれる場合は、ブロック1517から1521
が実行されるが、これら動作は先に説明のブロック1504
から1510と同一である。
フレームの後半の個々の高調波に対する振動数及び振
幅に対するパーサンプル ポイントの計算がブロック16
01から1614によって図解される。ブロック1601によって
次のフレームが発声フレームであるか非発声フレームで
あるか決定される。次のフレームが非発声フレームであ
る場合は、ブロック1603から1607が実行される。初期ポ
イントは振動数及び振幅の両方ともフレームの中間ポイ
ントであるため、ブロック1504及び1507によって遂行さ
れるような初期値の決定は必要でない。ブロック1603か
らブロック1607はブロック1508から1510によって遂行さ
れるのと類似する機能を遂行する。次のフレームが発声
フレームである場合は、反対ブロック1602及び1604ある
いは1605が実行される。これらブロックの実行は前述の
ブロック1503,1505、及び1506における説明と類似す
る。ブロック1608から1611の動作は前述のブロック1513
から1516の動作と類似する。フレームの後半では振動数
及び振幅に対して初期状態をセットする必要はない。ブ
ロック1621から1614の動作は前述のブロック1519から15
21の動作に類似する。
発生器214によって遂行される最後の動作は前述のよ
うにして個々の高調波に対して計算されたパーサンプル
振動数及び振幅を使用して音声の実際のシヌソイダル合
成を行なうことである。第19図のブロック1701から1707
は先に計算された振動数情報を使用してこれら振動数か
ら高調波の位相を計算し、次に式(1)によって定義さ
れる計算を遂行する。ブロック1702及び1703はフレーム
の開始に対する初期音声サンプルを決定する。この初期
ポイントが決定された後、ブロック1704から1707によっ
てこのフレームに対する残りの音声サンプルが決定され
る。次にこれらブロックからの出力がデジタル/アナロ
グ コンバータ208に伝送される。
計算器211のもう1つの実施態様は、第20図に示され
るように伝送された高調波オフセットを再使用して5以
上の高調波に対する計算理論高調波振動数を修正する。
ブロック2003から2005は5番目の高調波以上の高調波を
5つのグループにグループ化し、次にブロック2006及び
2007によってこれらグループの個々の理論高調波振動数
に対応する伝送された高調波オフセットが加えられる。
第21図は計算器211の第2の実施態様に示すが、これ
は第20図に示される実施態様とはブロック2100によって
最初の5個の高調波以上の個々のグループの高調波振動
数に対してオフセットの順番がランダムに置換される点
が異なる。第21図のブロック2101から2108は第20図の対
応するブロックと類似する機能を遂行する。
第22図は計算器211の第3の実施態様を示す。この実
施態様はブロック2202及び2205の制御下で個々の高調波
振動数に対してブロック2203及び2204に示される計算を
遂行することによって第2図の計算器213及び214に伝送
された理論高調波振動数の修正高調波振動数を得る。
上に説明の実施態様は単に本発明の原理を解説するた
めのものであり、本発明の精神及び範囲から逸脱するこ
となく他の構成を考案できることは明白である。
【図面の簡単な説明】
第1図は本発明による音声アナライザのブロック図; 第2図は本発明による音声シンセサイザのブロック図; 第3図は発声領域の間に音声を再生するための情報を含
むパケットを示す図; 第4図は非発声領域の間にノイズ励振を使用して音声を
再生するための情報を含むパケットを示す図; 第5図は非発声領域の間にパルス励振を使用して音声を
再生するための情報を含むパケットを示す図; 第6図は第1図の音声フレーム セグメンタ141が音声
フレームを音声セグメントにて、いかにオーバラップさ
せるかを示す図; 第7図は第2図のシンセサイザによって基本及び高調波
振動数に対して遂行される挿間をグラフ形式にて示す
図; 第8図は第2図のシンセサイザによって基本及び高調波
振動数の振幅に対して遂行される挿間をグラフ形式にて
示す図; 第9図は第1図及び第2図のデジタル信号プロセッサの
構成を示す図; 第10図から第13図は第9図の信号プロセッサ903を制御
して第1図のアナライザ回路を動作させるためのプログ
ラムの流れ図; 第14図から第19図は第9図のデジタル信号プロセッサ90
3の実行を制御して第2図のシンセサイザを動作させる
ためのプログラムの流れ図;そして 第20図、第21図、及び第22図は第9図のデジタル信号プ
ロセッサ903の実行を制御して第2図の高高調波計算器2
21を動作させるためのその他のプログラム ルーチンの
流れ図である。 [主要部分の符号の説明] A/Dコンバータ……101 フレーム セグメンタ……102 エネルギー計算器……103 ロー パス フィルタ……104 パラメータ符号器……113 チャネル復号器……201 ホワイト ノイズ発生器……203 パルス発生器……204 選択スイッチ……205,206 合成フィルタ……207 D/Aコンバータ……208
───────────────────────────────────────────────────── フロントページの続き (72)発明者 トーマス エドワード ジャコブス アメリカ合衆国 60650 イリノイズ,シ セロ,サウス フィフティス アヴェニュ ー 1814 (72)発明者 リチャード ハリー ケッチャム アメリカ合衆国 60187 イリノイズ,ホ イートン,プライマウス コート 1754シ ー (72)発明者 ウィレム バスチアアン クレイジン アメリカ合衆国 60510 イリノイズ,バ タヴィア,ノース ヴァン ノートウィッ ク 238

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】音声フレームを表わす符号化情報から音声
    を合成するための方法において、該フレームの個々が音
    声の瞬時振幅の所定の数の均一な間隔のサンプルを有
    し、個々のフレームに関する該符号化情報がフレーム
    エネルギー、音声パラメータのセット、音声の基本振動
    数及び基本振動数信号から派生された理論的高調波振動
    数と実際の高調波振動数のサブセットとの間の差を表す
    オフセット信号から成り、該方法が、 該オフセット信号に対応する高調波位相信号のサブセッ
    トを計算するステップ、 該フレームの1つに対する残りの高調波位相信号を該基
    本振動数信号から算出するステップ、 該基本振動数信号、該高調波位相信号のサブセット及び
    該残りの高調波位相信号の振幅を該フレームの1つのフ
    レーム エネルギー及び音声パラメータのセットから決
    定するステップ、及び 該フレームの1つに対する該基本振動信号、該サブセッ
    ト及び残りの位相信号ならびに該決定された振幅に応答
    して複製音声を生成するステップからなることを特徴と
    する方法。
  2. 【請求項2】特許請求の範囲第1項に記載の方法におい
    て、該残りの高調波位相信号を算出するステップが個々
    の高調波の数を該基本振動数信号に乗算することによっ
    て該個々の残りの高調波位相信号に対する振動数を生成
    するステップ; 該生成される振動数を算術的に修正するステップ;及び 該残りの位相信号を該修正された振動数から計算するス
    テップを含むことを特徴とする方法。
  3. 【請求項3】特許請求の範囲第1項に記載の方法におい
    て、該残りの高調波位相信号を算出するステップが該残
    りの高調波位相信号に対応する残りの高調波振動数信号
    を該基本振動数信号に該個々の残りの高調波信号に対す
    る高調波の数を乗算することによって生成するステッ
    プ; 該乗算された振動数信号を個々が該高調波位相信号のサ
    ブセットと同数の高調波をもつ複数のサブセットにグル
    ープ化するステップ; 該個々のオフセット信号を該複数のサブセット各々の対
    応するグループ化された振動数信号に加えることによっ
    て修正された残りの高調波振動数信号を生成するステッ
    プ;及び 該修正された高調波振動数信号から該残りの高調波位相
    信号を生成するステップを含むことを特徴とする方法。
  4. 【請求項4】特許請求の範囲第3項に記載の方法におい
    て、該修正された残りの高調波振動数信号を生成するた
    めに該オフセットを加えるステップが該複数のサブセッ
    ト各々の対応するグループ化された振動数信号に該信号
    を加える前に該オフセット信号の順番を並べ変えるステ
    ップが含まれることを特徴とする方法。
  5. 【請求項5】特許請求の範囲第1項に記載の方法におい
    て、該振幅を決定するステップが該フレームの1つに対
    する該音声パラメータのセットから該高調波位相信号各
    々の未スケール エネルギーを計算するステップ; 該フレームの1つに対する該高調波位相信号のすべてに
    関しての該未スケール エネルギーの総和を求めるステ
    ップ;及び 該高調波位相信号の振幅を該高調波信号各々の該高調波
    エネルギー、総和未スケール エネルギー及び該フレー
    ムの1つに対するフレーム エネルギーに応答して計算
    するステップが含まれることを特徴とする方法。
JP62171340A 1986-09-11 1987-07-10 人の音声の符号化処理システム Expired - Lifetime JPH0833753B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/906,424 US4771465A (en) 1986-09-11 1986-09-11 Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US906424 1986-09-11

Publications (2)

Publication Number Publication Date
JPS6370300A JPS6370300A (ja) 1988-03-30
JPH0833753B2 true JPH0833753B2 (ja) 1996-03-29

Family

ID=25422427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62171340A Expired - Lifetime JPH0833753B2 (ja) 1986-09-11 1987-07-10 人の音声の符号化処理システム

Country Status (9)

Country Link
US (1) US4771465A (ja)
EP (1) EP0259950B1 (ja)
JP (1) JPH0833753B2 (ja)
KR (1) KR960002387B1 (ja)
AT (1) ATE73251T1 (ja)
AU (1) AU575515B2 (ja)
CA (1) CA1307344C (ja)
DE (1) DE3777028D1 (ja)
SG (1) SG123392G (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
JP2586043B2 (ja) * 1987-05-14 1997-02-26 日本電気株式会社 マルチパルス符号化装置
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US5127054A (en) * 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
EP0351479B1 (en) * 1988-07-18 1994-10-19 International Business Machines Corporation Low bit rate voice coding method and device
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
AU671952B2 (en) * 1991-06-11 1996-09-19 Qualcomm Incorporated Variable rate vocoder
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
FI95085C (fi) * 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
IT1257431B (it) * 1992-12-04 1996-01-16 Sip Procedimento e dispositivo per la quantizzazione dei guadagni dell'eccitazione in codificatori della voce basati su tecniche di analisi per sintesi
US5448679A (en) * 1992-12-30 1995-09-05 International Business Machines Corporation Method and system for speech data compression and regeneration
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP2861889B2 (ja) * 1995-10-18 1999-02-24 日本電気株式会社 音声パケット伝送システム
JPH09185397A (ja) * 1995-12-28 1997-07-15 Olympus Optical Co Ltd 音声情報記録装置
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
US5778337A (en) * 1996-05-06 1998-07-07 Advanced Micro Devices, Inc. Dispersed impulse generator system and method for efficiently computing an excitation signal in a speech production model
EP0917709B1 (en) * 1996-07-30 2000-06-07 BRITISH TELECOMMUNICATIONS public limited company Speech coding
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
KR19980025793A (ko) * 1996-10-05 1998-07-15 구자홍 음성데이타 보정방법 및 장치
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
WO1999003097A2 (en) * 1997-07-11 1999-01-21 Koninklijke Philips Electronics N.V. Transmitter with an improved speech encoder and decoder
CN1231050A (zh) * 1997-07-11 1999-10-06 皇家菲利浦电子有限公司 具有改进谐波语音编码器的发射机
US6029133A (en) * 1997-09-15 2000-02-22 Tritech Microelectronics, Ltd. Pitch synchronized sinusoidal synthesizer
US6230130B1 (en) 1998-05-18 2001-05-08 U.S. Philips Corporation Scalable mixing for speech streaming
US6810409B1 (en) 1998-06-02 2004-10-26 British Telecommunications Public Limited Company Communications network
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
KR100675309B1 (ko) * 1999-11-16 2007-01-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 광대역 오디오 송신 시스템, 송신기, 수신기, 코딩 디바이스, 디코딩 디바이스와, 송신 시스템에서 사용하기 위한 코딩 방법 및 디코딩 방법
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
ATE303646T1 (de) * 2000-06-20 2005-09-15 Koninkl Philips Electronics Nv Sinusoidale kodierung
WO2003038812A1 (en) * 2001-11-02 2003-05-08 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
US20030108108A1 (en) * 2001-11-15 2003-06-12 Takashi Katayama Decoder, decoding method, and program distribution medium therefor
JP2003255976A (ja) * 2002-02-28 2003-09-10 Nec Corp 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法
US7027980B2 (en) * 2002-03-28 2006-04-11 Motorola, Inc. Method for modeling speech harmonic magnitudes
US7343283B2 (en) * 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
JP5233986B2 (ja) * 2007-03-12 2013-07-10 富士通株式会社 音声波形補間装置および方法
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US9378746B2 (en) 2012-03-21 2016-06-28 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
CN103811011B (zh) * 2012-11-02 2017-05-17 富士通株式会社 音频弦波检测方法和装置
WO2014202770A1 (en) 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US9323878B2 (en) * 2014-02-07 2016-04-26 Freescale Semiconductor, Inc. Method of optimizing the design of an electronic device with respect to electromagnetic emissions based on frequency spreading introduced by data post-processing, computer program product for carrying out the method and associated article of manufacture
US9323879B2 (en) 2014-02-07 2016-04-26 Freescale Semiconductor, Inc. Method of optimizing the design of an electronic device with respect to electromagnetic emissions based on frequency spreading introduced by hardware, computer program product for carrying out the method and associated article of manufacture
US9400861B2 (en) 2014-02-07 2016-07-26 Freescale Semiconductor, Inc. Method of optimizing the design of an electronic device with respect to electromagnetic emissions based on frequency spreading introduced by software, computer program product for carrying out the method and associated article of manufacture
RU2584462C2 (ru) * 2014-06-10 2016-05-20 Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования Московский технический университет связи и информатики (ФГОБУ ВПО МТУСИ) Способ передачи и приема сигналов, представленных параметрами ступенчатого модуляционного разложения, и устройство для его осуществления
CN109741757B (zh) * 2019-01-29 2020-10-23 桂林理工大学南宁分校 用于窄带物联网的实时语音压缩和解压的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5543554A (en) * 1978-09-25 1980-03-27 Nippon Musical Instruments Mfg Electronic musical instrument
JPS56119194A (en) * 1980-02-23 1981-09-18 Sony Corp Sound source device for electronic music instrument
JPS56125795A (en) * 1980-03-05 1981-10-02 Sony Corp Sound source for electronic music instrument
JPS6035792A (ja) * 1983-07-25 1985-02-23 株式会社河合楽器製作所 非高調波上音を発生する装置
JPS6121000A (ja) * 1984-07-10 1986-01-29 日本電気株式会社 Csm型音声合成器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4304965A (en) * 1979-05-29 1981-12-08 Texas Instruments Incorporated Data converter for a speech synthesizer
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
WO1986005617A1 (en) * 1985-03-18 1986-09-25 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5543554A (en) * 1978-09-25 1980-03-27 Nippon Musical Instruments Mfg Electronic musical instrument
JPS56119194A (en) * 1980-02-23 1981-09-18 Sony Corp Sound source device for electronic music instrument
JPS56125795A (en) * 1980-03-05 1981-10-02 Sony Corp Sound source for electronic music instrument
JPS6035792A (ja) * 1983-07-25 1985-02-23 株式会社河合楽器製作所 非高調波上音を発生する装置
JPS6121000A (ja) * 1984-07-10 1986-01-29 日本電気株式会社 Csm型音声合成器

Also Published As

Publication number Publication date
JPS6370300A (ja) 1988-03-30
AU575515B2 (en) 1988-07-28
AU7530287A (en) 1988-03-17
SG123392G (en) 1993-02-19
DE3777028D1 (de) 1992-04-09
KR960002387B1 (ko) 1996-02-16
EP0259950B1 (en) 1992-03-04
KR880004425A (ko) 1988-06-07
CA1307344C (en) 1992-09-08
US4771465A (en) 1988-09-13
ATE73251T1 (de) 1992-03-15
EP0259950A1 (en) 1988-03-16

Similar Documents

Publication Publication Date Title
JPH0833753B2 (ja) 人の音声の符号化処理システム
KR960002388B1 (ko) 언어 엔코딩 처리 시스템 및 음성 합성방법
US5305421A (en) Low bit rate speech coding system and compression
US5794182A (en) Linear predictive speech encoding systems with efficient combination pitch coefficients computation
US6298322B1 (en) Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP2511871B2 (ja) マルチパルス励起線形予測符号器
EP0337636B1 (en) Harmonic speech coding arrangement
US4821324A (en) Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
CA1065490A (en) Emphasis controlled speech synthesizer
US4736428A (en) Multi-pulse excited linear predictive speech coder
JPH096397A (ja) 音声信号の再生方法、再生装置及び伝送方法
US4945565A (en) Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
US4890328A (en) Voice synthesis utilizing multi-level filter excitation
US6456965B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US5890118A (en) Interpolating between representative frame waveforms of a prediction error signal for speech synthesis
JPS58207100A (ja) 次数を減らした波形形成多項式を用いるlpc符号化方法
US4969193A (en) Method and apparatus for generating a signal transformation and the use thereof in signal processing
WO2000057401A1 (en) Computation and quantization of voiced excitation pulse shapes in linear predictive coding of speech
JP3531780B2 (ja) 音声符号化方法および復号化方法
JPH07101358B2 (ja) マルチパルス符号化方法および装置
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
JP3398968B2 (ja) 音声分析合成方法
JP3731575B2 (ja) 符号化装置及び復号装置
KR100310930B1 (ko) 음성합성장치및그방법
JPH05507796A (ja) 音声の低スループット符号化の方法と装置