JPH07271396A - 音声符号化方法及び音声音源装置 - Google Patents
音声符号化方法及び音声音源装置Info
- Publication number
- JPH07271396A JPH07271396A JP6082462A JP8246294A JPH07271396A JP H07271396 A JPH07271396 A JP H07271396A JP 6082462 A JP6082462 A JP 6082462A JP 8246294 A JP8246294 A JP 8246294A JP H07271396 A JPH07271396 A JP H07271396A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- pitch
- information
- pole
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/366—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/055—Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
- G10H2250/061—Allpass filters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
- G10H2250/571—Waveform compression, adapted for music synthesisers, sound banks or wavetables
- G10H2250/581—Codebook-based waveform compression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
ると共に、ピッチ変化に柔軟に対処できる音声音源装置
を提供する。 【構成】 コードブック31は、音源データとしてのコ
ードブック情報Iに基づいて音源パターンの時間関数を
選択し、ピッチ変化情報Pitch に基づいて音源パターン
を生成する。ピッチフィルタ32はピッチ情報Lとピッ
チ変化情報Pitchに基づいてピッチを大まかに制御し、
オールパスフィルタ33はピッチを細かく制御する。全
極形合成フィルタ37には、係数情報として伝達関数の
極の座標が与えられており、係数計算部38は、この極
の座標を与えられたピッチ変化情報Pitch 分だけ移動さ
せたのち、移動後の極の座標に基づいて係数パラメータ
αを算出する。これにより、音源モデル(コードブッ
ク)によって音源信号を生成すると共に、声道モデル
(全極形合成フィルタ)によって音源信号を信号処理し
て音声信号を生成出力する。
Description
容量の低減を図れるようにした音声符号化方法、並びに
伝送路を介して伝送された受信データに基づき音声(楽
音)を合成するオンラインカラオケシステム等に使用さ
れる音声音源装置、テープ、ディスク、固体メモリ等の
記憶媒体に記憶されたデータに基づき音声(楽音)を合
成するカラオケシステム、コンピュータミュージックシ
ステム、ゲーム機器等に使用される音声音源装置、又は
ユーザからリアルタイムで与えられるデータをもとに音
声(楽音)を合成する電子楽器等に使用される音声音源
装置に関する。
たり、パッケージメディアに格納するような場合、従来
は、PCM(パルス符号変調)、ADPCM(適応差分
PCM)及びADM(適応デルタ変調)等の波形符号化
技術で音声波形を符号化し、伝送・蓄積するようにして
いる。電子楽器においてもADMやADPCM等の手法
で情報量を削減した楽音データをメモリに記憶し、それ
を演奏者から与えられる楽音指定データに対応したピッ
チ、音色及び音量で再生する技術が知られている。
合成型がある。この分析合成型に属するものとして波形
やスペクトル包絡パラメータを各サンプル値ごとに量子
化せず、複数の値の組をまとめて一つの符号で表現する
ベクトル量子化が知られている。ベクトル量子化方式で
は、標本化したのちの波形を一定時間について切り出
し、その区間の波形パターンを1つの符号で表現する。
このため、予め種々の波形パターンを蓄えておき、それ
ぞれに符号を与えておく。この場合、種々の波形パター
ンをコードワードと呼び、符号とコードワードとの対応
を示す表をコードブックと呼ぶ。入力波形は、一定の時
間間隔毎にコードブックの各コードワードと比較され、
最もマッチングしたコードワードの符号で、その入力波
形が表現される。
である。一般に音声は、声帯の振動と雑音源との共存関
係によっていくつかにパターン化された音源モデル10
1と、声帯から唇までの音波の通路の特性によって決定
される声道モデル102と、ピッチ(係数)及び振幅情
報等とによって合成可能である。したがって、音源モデ
ル101として、波形のパターンを特定するコードブッ
クを使用し、音声のピッチはピッチフィルタによって決
定する。また、声道モデルは、それに相当する合成フィ
ルタを使用する。
(z)は、一般に、鼻音化しない場合には、z平面上の
零点を無視して、数1で示すような全極形の伝達関数と
して表現することができる。
の分析合成符号化方式では、全極形フィルタの係数αi
を直接記憶又は伝送するようにしているので、ピッチを
変化させようとすると、全極形フィルタの全ての極の座
標を求めた後、求められた各極の座標をピッチ変化量に
応じて移動させ、更に全極形フィルタを再構成する−と
いう3つの段階的な処理を実行する必要があり、処理が
煩雑化するという問題がある。
ップ付きのディレイ回路であり、1タップに対応する分
解能のピッチ変化しか得られない。更に、全極形フィル
タを駆動する音源情報としてのコードブックは波形パタ
ーンがテーブル形式で記憶されているだけであるため、
時間軸を変化させることができない。このため、ピッチ
変化に対する柔軟性に欠けるという問題もある。
されたもので、伝送又は蓄積すべき情報量を格段に少な
くすることができる音声符号化方法及び音声音源装置を
提供することを目的とする。この発明は、ピッチ変化に
も柔軟に対処することができる音声符号化方法及び音声
音源装置を提供することを他の目的とする。この発明
は、細かなピッチ変化にも対応できる音声符号化方法及
び音声音源装置を提供することを更に他の目的とする。
この発明は、音源情報の時間軸方向の調整も容易な音声
符号化方法及び音声音源装置を提供することを更に他の
目的とする。
化方法は、入力音声信号から線形予測された声道モデル
に対応する全極形合成フィルタの係数情報を算出し、前
記入力音声信号からそのピッチ情報を抽出し、前記入力
音声信号に含まれる音源パターンを予め備えられた種々
の音源パターンの中から選択しその音源パターンを示す
符号を求め、前記全極形合成フィルタの係数情報、ピッ
チ情報及び音源パターンの符号を、ピッチ変化を伴う復
号処理システムに供給するための音声符号化方法におい
て、前記全極形合成フィルタの係数情報として伝達関数
の極の座標を算出し前記復号処理システムに供給するこ
とを特徴とする。
ーンを示す符号に基づいて予め備えられた種々の音源パ
ターンの中から1つの音源パターンを選択し音声音源モ
デルとしての音源信号を生成出力する音源信号生成手段
と、ピッチ変化情報に基づいて前記音源信号のピッチを
調整するピッチ調整手段と、全極形合成フィルタの係数
情報に基づいて前記ピッチ調整された音源信号に声道モ
デルに対応したフィルタリング処理を施して音声再生信
号を出力する全極形合成フィルタとを備えた音声音源装
置において、前記全極形合成フィルタの係数情報は伝達
関数の極の座標として供給され、与えられたピッチ変化
情報に基づいて前記座標で示される極を移動させたのち
前記全極形合成フィルタの係数パラメータを算出し前記
全極形合成フィルタに供給する係数計算手段を備えたこ
とを特徴とする。
みならず、音響、楽音等、あらゆる音に関するものを含
むものである。
ィルタの係数情報として伝達関数の極の座標を例えば極
座標の形で算出し、この座標を復号処理システムに供給
するようにしているので、復号処理システム側では、与
えられた極の座標をピッチ変化に対応して容易に移動さ
せることができる。そして、この移動後の極の座標から
全極形合成フィルタの係数を求めることにより、ピッチ
変化に対応したフィルタ係数パラメータが容易に求めら
れる。
全極形合成フィルタの係数情報が伝達関数の極の座標と
して供給され、与えられたピッチ変化情報に基づいて係
数計算手段が前記座標を移動させたのち係数パラメータ
を算出するので、ピッチ変化に柔軟に対処することがで
きる。
段のみであると、1タップ分の分解能でしかピッチを調
整することができないが、タップ可変遅延手段の他にオ
ールパスフィルタを用い、このオールパスフィルタの係
数を適当に切換えるようにすると、微小なピッチ変化の
調整が可能になる。
して保持するようにすると、音源信号自体もピッチ変化
に対応させることができる。
度が異なる複数の音声再生信号を同時に出力することに
よりコーラス音を生成したり、全極形合成フィルタの極
の座標の位置を調整することにより特殊再生音を生成す
ることができるので、任意のコーラス音や特殊再生音も
音声音源装置側で容易に生成することができる。
説明する。図1は、この発明の第1の実施例に係るシス
テムの全体構成を示すブロック図である。このシステム
は、送信側で音声信号を分析合成符号化により符号化
し、この符号化されたデータを通信回線を介して受信側
に伝送するシステムで、音声音源オンラインカラオケシ
ステム等に適用される。
介して送信局3と接続されている。送信局3は、音声信
号を符号化して音源データとしてのコードブック情報I
や音高を決めるピッチ情報L、音声の振幅を決定するゲ
インβ,γ、更には声道データとしての全極形フィルタ
の極の座標r,θ(極座標表現)を算出する音声分析部
4と、これらのデータI,L,β,γ,r,θを、通信
回線2を介して受信局1に送信する送信部5とを備えて
いる。また、受信局1は、通信回線2を介して伝送され
たデータI,L,β,γ,r,θを受信する受信部6
と、この受信部6で受信されたデータ及び受信局1側で
設定されたピッチ変化情報Pitch に基づいて音声信号を
合成する音声音源装置7とを備えている。
ステムの全体構成を示すブロック図である。このシステ
ムは、音声信号を分析合成符号化により符号化し、この
符号化されたデータをCD,LD,MD,FD等のディ
スク媒体、DAT,DCC等の磁気テープ又はメモリ等
の記憶媒体に格納し、必要に応じて読出して合成するシ
ステムである。図2において、記録装置11は、図1と
同様の音声分析部4と、この音声分析部4からの各種デ
ータI,L,β,γ,r,θを、必要に応じて変調して
記憶媒体12に書き込む記録部13とを備えている。ま
た、再生装置14は、ディスク再生装置や電子楽器等
で、記憶媒体12から必要なデータI,L,β,γ,
r,θを読み出す読出部15と、この読出部15で読み
出されたデータ及び再生装置側で設定されたピッチ変化
情報Pitch に基づいて音声信号を合成する図1と同様の
音声音源装置7とを備えて構成されている。
係るシステムの全体構成を示すブロック図である。この
システムは、電子楽器を想定したシステムである。メモ
リ21は、ROM等からなり、予め複数の楽音(音声)
から分析して求めたデータI,L,β,γ,r,θの組
み合わせを記憶している。メモリ21からは音色指定情
報に従って1組のデータが選択される。音声音源装置7
は、選択されたデータの組及び別途鍵盤等で指定された
ピッチ変化情報Pitch に基づいて楽音(音声)を合成す
る。サンプリング機能を備えた電子楽器の場合には、メ
モリ21をRAMで構成する他、図2に示したように、
入力された楽音(音声)からデータI,L,β,γ,
r,θを求める音声分析手段とメモリ21にデータを記
録する記録手段が必要になる。
媒体に記憶される情報は、コードブック情報I、ピッチ
情報L、ゲインβ,γ、全極形合成フィルタの極の座標
r,θのみである。これにより、伝送容量又は記憶容量
を格段に低減することができる。また、音声音源装置7
側で与えられる情報は、ピッチを基準位置からどの程度
変化させるかを決めるピッチ変化情報Pitch である。
の形で設定された複数のコードワードを特定する符号で
ある。ピッチ情報Lは、音声のピッチを表す情報で、後
述するピッチフィルタの遅延段数を決定するパラメータ
となる。ゲインβ,γは、音声の振幅を制御するパラメ
ータである。全極形合成フィルタの極の座標r,θは、
声道モデルを作成するフィルタの係数αを算出する情報
で、与えられたピッチ変化情報Pitch から係数αを容易
に作成することができるパラメータである。作成された
パラメータαは、例えば20msec程度のフレーム単位で
音声信号を制御するパラメータとなる。
部4における符号化方法について説明する。
θ 全極形合成フィルタは、声道の特性に対応する音声のス
ペクトラム包絡特性を近似的に表したフィルタで、その
伝達関数H(z)は、下記数2のように表される。
って変化するため、この発明では、伝達関数H(z)
を、A(z)=0のときの根、即ち図4に示すようなz
平面上の極座標ri ,θi の形で表される極で特定す
る。伝達関数の振幅−周波数特性は、例えば図5のよう
になる。θ1 ,θ2 ,…は、フォルマント周波数を表し
ている。いま、r1 exp(±jθ1 ),r2 exp
(±jθ2 ),…がA(z)=0の根であるとすると、
A(z)は、下記数3のように変形することができる。
いれば、全極形合成フィルタの係数αi が次のように求
められる。
(線形予測符号化)における自己相関法や共分散法等の
手法を用いて音声信号を短時間フレーム(例えば20ms
ec程度)毎に分析して求められる。即ち、図6に示す予
測モデルにおいて、入力音声x(n)と予測出力音声
x’(n)との差である誤差電力e(n)が0となるよ
うなフィルタの係数αi を求めればよい。予測出力音声
x’(n)は、
Hzで、20msecのフレーム周期に160サンプルをサ
ンプリングすると考えると、誤差電力E=Σei は、数
6のようになる。
をαi で偏微分して0とおくことにより求められる。よ
って、数6を偏微分して下記数7を求める。
を求めることができる。そして、求められたαi を前述
した数2に代入し、A(z)=0を因数分解することに
より、A(z)=0の根の座標r1 ,r2 ,θ1 ,θ2
を求めることができる。
源出力信号を用いて、タップ可変の遅延回路からなるピ
ッチフィルタにより一旦信号を再生し、入力信号との聴
感重み付け誤差電力Eを最小化するように、サブフレー
ム(5msec程度)毎に決定する。
(n)は、それぞれ、入力信号、過去の音源出力信号、
及び聴感重み付けフィルタのインパルス応答を示す。ま
た、*は畳み込み演算符号である。聴感重み付けフィル
タの伝達関数は、例えば、
0.8が用いられる。なお、αi は、前述した全極形フ
ィルタの係数である。
ードが時間の関数として表現されていることを特徴とし
ている。即ち、予め入力音声信号を一定の時間(例えば
5msec)間隔で切り出し、その区間の波形パターンを時
間関数fI (t)で表現する。有声音の場合の一例を示
すと、コードワードは、例えば下記数12のような形で
求められる。
ブック情報、tは時間、C,ωは係数である。コードワ
ードとしては、各インデックスに対応させて係数C,ω
の行列を記憶しておけばよい。このようなコードワード
を種々のパターンについて求めておき、入力された音声
信号波形と最もマッチングするパターンのインデックス
をコードブック情報Iとして送る。コードブックには、
パターンの分布の偏りを考慮して、限られた数、例えば
1024種類のパターンを用いて種々の音声信号を入力
したときに、全体として歪が最も小さくなるような適切
なパターンを備えておく必要がある。
めるには、コードブックの中の全てのコードについて一
旦信号を再生し、下記数13に示す入力信号との聴感重
み付け誤差電力E′を求め、誤差電力E′を最小化する
ようにサブフレーム(5msec)毎に決定していく。
信号を減算した後の信号、Cj (n)は音源コードブッ
クのj番目のコードワード、h(n)は全極形合成フィ
ルタのインパルス応答、w(n)は聴感重み付けフィル
タのインパルス応答である。また、*は畳み込み演算符
号である。コードブック情報Iは、このようにして求め
られたコードワードfI (t)を示すインデックスであ
る。
される場合には、例えばフレーム(20msec)及びサブ
フレーム(5msec)毎に、図7に示すようなMIDIの
フォーマットで伝送される。このフォーマットは、固定
長ビットとそれに続く可変長ビットとからなり、固定長
ビットの先頭は同期ビットパターンで、次に情報インデ
ックスが続いている。情報インデックスには、全極形合
成フィルタの極の座標、ゲイン等の情報が更新されると
きに更新フラグ“1”が、また更新されないときにホー
ルドフラグ“0”がセットされる。可変長ビットには、
情報インデックスがデータ更新することを示している場
合に限り、更新すべきデータが割り付けられる。したが
って、前フレームと同じ情報であった場合には、情報は
送らない。また、無音時には無音であることを示すコー
ドを送るようにすればよい。これにより、伝送データ量
を更に削減可能である。
音源装置7の構成を示すブロック図である。音源モデル
に対応する波形の音源パターンを特定するコードブック
31が設けられ、音声のピッチは、ピッチフィルタ32
及びオールパスフィルタ33によって決定される。コー
ドブック31とオールパスフィルタ33の出力がそれぞ
れ乗算器34,35で振幅調整され、加算器36で合成
されたのち、声道モデルに対応する全極形合成フィルタ
37において音声のスペクトラム包絡特性を制御され
る。全極形合成フィルタ37のフィルタ係数αは、極座
標r,θから係数計算部38によって求められ、全極形
合成フィルタ37に与えられる。
えられると、コードブック31から指定されたインデッ
クスIの時間関数fI (t)が読み出される。ここで、
ピッチ変化がない場合(ピッチ変化情報Pitch が与えら
れていない場合)には、t=0,1,2,…を代入し、
ピッチが例えば1%アップした場合には、t=0,1.
01,2.02,3.03,…を代入する。このよう
に、代入するtの値を変化させることにより、ピッチ変
化されたコードワードを求める。
2とオールパスフィルタ33とによって可変するように
している。図9に示すように、ピッチフィルタ32は、
タップ可変の直列接続された遅延素子によって構成され
ている。ピッチフィルタ32の遅延段数を可変すること
により、サンプルピッチを遅延素子での遅延量を単位と
して可変することができる。
ピッチ可変は、オールパスフィルタによって実現する。
オールパスフィルタは、図9に示すように、例えば数段
のFIRフィルタ41によって構成されている。FIR
フィルタ41の係数Cは、例えば図10に示すような s
inx/x関数から計算する。例えば、50.3のピッチ
周期を実現する場合、50に相当する遅延をピッチフィ
ルタのタップ設定により実現し、0.3に相当する遅延
量はオールパスフィルタ33の係数を、例えば図10に
示すように、C01,C02,…からC11,C12,…に変更
することによって実現する。また、この状態からピッチ
を1割上げる場合には、ピッチ周期を50.3/1.1
=45.7にする必要があるので、46に相当する遅延
量をピッチフィルタのタップ設定により実現し、−0.
3に相当する遅延量をオールパスフィルタの係数Cの選
択によって実現する。図9の構成のオールパスフィルタ
では、{FIRフィルタの段数(奇数)+1}/2±
0.5の範囲でピッチ周期を微調整することができる。
オールパスフィルタの係数Cは、計算によって求めても
良いが、図9に示すように、係数テーブル42の形で用
意しておくようにしてもよい。
は図8の全極形合成フィルタ37に供給される。係数計
算部38は、与えられた極座標r,θ及びピッチ変化情
報Pitch に基づいて、全極形合成フィルタ37の係数パ
ラメータαを算出する。即ち、音高変化に相当するピッ
チ変化は、フォルマント周波数の変化に相当する。この
場合、例えば、θ1 が440Hzから450Hzに、θ
2 が800Hzから818.2Hzというように、一定
の比率で周波数が変化する。そこで、ピッチ変化を
“比”で与えてフォルマント周波数を変化させ、新しい
極の位置から全極形合成フィルタ37の係数を計算し直
すことにより、ピッチ変化後の全極形合成フィルタ37
の係数αi を係数計算部38で求め、フィルタ37を容
易に再構成することができる。なお、極座標r,θを任
意に変更することにより、特殊音再生が可能になる。
ば、伝送路を介して伝送すべき音声情報又は記憶すべき
音声情報としては、コード化されたコードブック情報、
ピッチ情報、ゲイン情報及び全極形合成フィルタの極の
座標等のパラメータ情報のみであるため、従来のADP
CM等に比べ、伝送ビットレートを例えば4〜8kbpsと
大幅に削減することができる。また、このシステムによ
れば、音源装置側でのピッチ変化操作に対しても柔軟に
対処することができる。
理を基本としているので、必要最小限度の伝送情報から
多様な音声信号を編集することができ、音声を電子楽器
における一つの楽音情報のように取り扱うことができ
る。例えば、コードブックを複数個同時に選択すること
で、同一パートを複数人が受け持つというオーケストラ
効果を出すこともできる。
7に音源信号生成手段としてのコードブック31、ピッ
チ調整手段としてのピッチフィルタ32及びオールパス
フィルタ33並びに全極形合成フィルタ37を複数備え
るようにしてもよい。そして、原音(ピッチを変化させ
ない音)とピッチを変化させた音とを同時に複数発生さ
せることにより、コーラスや特殊音等の多様な音を生成
することができる。この他、複数の音源モデルに単一の
声道モデルの組み合わせや、単一の音源モデルに複数の
声道モデルの組み合わせ等も考えられ、この場合でも、
より多様な音声を再生することができる。
伝送又は蓄積される音声情報がパラメータのみであるた
め、伝送情報量又は記憶情報量を大幅に少なくすること
ができる。また、この発明によれば、全極形フィルタの
係数情報として伝達関数の極の座標を算出し、音声音源
装置側では、上記極の座標に基づいてピッチを変化さ
せ、係数パラメータを算出することができるので、ピッ
チ変化に対応したフィルタ係数パラメータが容易に求め
られる。
を含むシステムのブロック図である。
を含むシステムのブロック図である。
を含むシステムのブロック図である。
達関数の極の座標を説明するための図である。
達関数の極と振幅−周波数特性との関係を示す図であ
る。
測モデルを示す図である。
を示す図である。
ク図である。
オールパスフィルタの詳細を示すブロック図である。
図である。
の構成を示すブロック図である。
部、5…送信部、6…受信部、7…音声音源装置、11
…記録装置、12…記憶媒体、13…記録部、14…再
生装置、15…読出部、21…メモリ、31…コードブ
ック、32…ピッチフィルタ、33…オールパスフィル
タ、34,35…乗算器、36…加算器、37…全極形
合成フィルタ、38…係数計算部。
Claims (7)
- 【請求項1】 入力音声信号から線形予測された声道モ
デルに対応する全極形合成フィルタの係数情報を算出
し、 前記入力音声信号からそのピッチ情報を抽出し、 前記入力音声信号に含まれる音源パターンを予め備えら
れた種々の音源パターンの中から選択しその音源パター
ンを示す符号を求め、 前記全極形合成フィルタの係数情報、ピッチ情報及び音
源パターンの符号を、ピッチ変化を伴う復号処理システ
ムに供給するための音声符号化方法において、 前記全極形合成フィルタの係数情報として伝達関数の極
の座標を算出し前記復号処理システムに供給することを
特徴とする音声符号化方法。 - 【請求項2】 前記種々の音源パターンは、時間の関数
として設定されたものであることを特徴とする請求項1
記載の音声符号化方法。 - 【請求項3】 音源パターンを示す符号に基づいて予め
備えられた種々の音源パターンの中から1つの音源パタ
ーンを選択し音声音源モデルとしての音源信号を生成出
力する音源信号生成手段と、 ピッチ変化情報に基づいて前記音源信号のピッチを調整
するピッチ調整手段と、 全極形合成フィルタの係数情報に基づいて前記ピッチ調
整された音源信号に声道モデルに対応したフィルタリン
グ処理を施して音声再生信号を出力する全極形合成フィ
ルタとを備えた音声音源装置において、 前記全極形合成フィルタの係数情報は伝達関数の極の座
標として供給され、 与えられたピッチ変化情報に基づいて前記座標で示され
る極を移動させたのち前記全極形合成フィルタの係数パ
ラメータを算出し前記全極形合成フィルタに供給する係
数計算手段を備えたことを特徴とする音声音源装置。 - 【請求項4】 前記ピッチ調整手段は、 ピッチ情報の一部として与えられた遅延段数の情報に基
づいて前記音源信号のピッチを遅延させるタップ可変遅
延手段と、 前記ピッチ情報の一部として与えられた詳細ピッチ情報
に基づいて前記タップ可変遅延手段で調整された前記音
源信号のピッチを微調整するオールパスフィルタとを備
えたものであることを特徴とする請求項3記載の音声音
源装置。 - 【請求項5】 前記音源信号生成手段は、前記種々の音
源パターンを時間の関数として保持し、前記ピッチ変化
情報に基づいて前記音源パターンの時間軸を調整するも
のであることを特徴とする請求項3記載の音声音源装
置。 - 【請求項6】 前記音源信号生成手段、ピッチ調整手段
及び全極形合成フィルタは複数設けられ、これらによっ
てピッチ変化の程度が異なる複数の音声再生信号を同時
に出力してコーラス音を生成することを特徴とする請求
項3乃至5のいずれか1項記載の音声音源装置。 - 【請求項7】 前記全極形合成フィルタの係数情報とし
ての極の座標を任意の位置に編集することにより特殊再
生音を生成することを特徴とする請求項3乃至5のいず
れか1項記載の音声音源装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08246294A JP3520555B2 (ja) | 1994-03-29 | 1994-03-29 | 音声符号化方法及び音声音源装置 |
US08/411,909 US5806037A (en) | 1994-03-29 | 1995-03-29 | Voice synthesis system utilizing a transfer function |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08246294A JP3520555B2 (ja) | 1994-03-29 | 1994-03-29 | 音声符号化方法及び音声音源装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07271396A true JPH07271396A (ja) | 1995-10-20 |
JP3520555B2 JP3520555B2 (ja) | 2004-04-19 |
Family
ID=13775180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08246294A Expired - Fee Related JP3520555B2 (ja) | 1994-03-29 | 1994-03-29 | 音声符号化方法及び音声音源装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5806037A (ja) |
JP (1) | JP3520555B2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1267330B1 (en) * | 1997-09-02 | 2005-01-19 | Telefonaktiebolaget LM Ericsson (publ) | Reducing sparseness in coded speech signals |
US6029125A (en) * | 1997-09-02 | 2000-02-22 | Telefonaktiebolaget L M Ericsson, (Publ) | Reducing sparseness in coded speech signals |
US6622121B1 (en) | 1999-08-20 | 2003-09-16 | International Business Machines Corporation | Testing speech recognition systems using test data generated by text-to-speech conversion |
US7139700B1 (en) * | 1999-09-22 | 2006-11-21 | Texas Instruments Incorporated | Hybrid speech coding and system |
JP3654079B2 (ja) * | 1999-09-27 | 2005-06-02 | ヤマハ株式会社 | 波形生成方法及び装置 |
US7313635B1 (en) * | 2002-03-21 | 2007-12-25 | Cisco Technology | Method and apparatus for simulating a load on an application server in a network |
US20070111173A1 (en) * | 2004-01-13 | 2007-05-17 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20070065789A1 (en) * | 2004-01-13 | 2007-03-22 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20050175972A1 (en) * | 2004-01-13 | 2005-08-11 | Neuroscience Solutions Corporation | Method for enhancing memory and cognition in aging adults |
US20060105307A1 (en) * | 2004-01-13 | 2006-05-18 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20060177805A1 (en) * | 2004-01-13 | 2006-08-10 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20060051727A1 (en) * | 2004-01-13 | 2006-03-09 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US8210851B2 (en) * | 2004-01-13 | 2012-07-03 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20060073452A1 (en) * | 2004-01-13 | 2006-04-06 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
BRPI0607251A2 (pt) | 2005-01-31 | 2017-06-13 | Sonorit Aps | método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado |
TWI285568B (en) * | 2005-02-02 | 2007-08-21 | Dowa Mining Co | Powder of silver particles and process |
US20070134635A1 (en) * | 2005-12-13 | 2007-06-14 | Posit Science Corporation | Cognitive training using formant frequency sweeps |
US9308446B1 (en) | 2013-03-07 | 2016-04-12 | Posit Science Corporation | Neuroplasticity games for social cognition disorders |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
CN109920397B (zh) * | 2019-01-31 | 2021-06-01 | 李奕君 | 一种物理学中音频函数制作系统及制作方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4344148A (en) * | 1977-06-17 | 1982-08-10 | Texas Instruments Incorporated | System using digital filter for waveform or speech synthesis |
US5113449A (en) * | 1982-08-16 | 1992-05-12 | Texas Instruments Incorporated | Method and apparatus for altering voice characteristics of synthesized speech |
JPH07118749B2 (ja) * | 1986-11-14 | 1995-12-18 | 株式会社日立製作所 | 音声/データ伝送装置 |
US5007094A (en) * | 1989-04-07 | 1991-04-09 | Gte Products Corporation | Multipulse excited pole-zero filtering approach for noise reduction |
US5091945A (en) * | 1989-09-28 | 1992-02-25 | At&T Bell Laboratories | Source dependent channel coding with error protection |
-
1994
- 1994-03-29 JP JP08246294A patent/JP3520555B2/ja not_active Expired - Fee Related
-
1995
- 1995-03-29 US US08/411,909 patent/US5806037A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5806037A (en) | 1998-09-08 |
JP3520555B2 (ja) | 2004-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3520555B2 (ja) | 音声符号化方法及び音声音源装置 | |
JP4132109B2 (ja) | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 | |
US5744742A (en) | Parametric signal modeling musical synthesizer | |
Moorer | Signal processing aspects of computer music: A survey | |
Verfaille et al. | Adaptive digital audio effects (A-DAFx): A new class of sound transformations | |
US5617507A (en) | Speech segment coding and pitch control methods for speech synthesis systems | |
US7599832B2 (en) | Method and device for encoding speech using open-loop pitch analysis | |
US5248845A (en) | Digital sampling instrument | |
KR0149251B1 (ko) | 악기음 발생 방법 및 시스템과 악기음 발생 제어 시스템 | |
US7750229B2 (en) | Sound synthesis by combining a slowly varying underlying spectrum, pitch and loudness with quicker varying spectral, pitch and loudness fluctuations | |
EP0714089A2 (en) | Code-excited linear predictive coder and decoder with conversion filter for converting stochastic and impulse excitation signals | |
WO2020095950A1 (ja) | 情報処理方法および情報処理システム | |
US4776015A (en) | Speech analysis-synthesis apparatus and method | |
WO2003010752A1 (en) | Speech bandwidth extension apparatus and speech bandwidth extension method | |
EP1422693A1 (en) | PITCH WAVEFORM SIGNAL GENERATION APPARATUS, PITCH WAVEFORM SIGNAL GENERATION METHOD, AND PROGRAM | |
KR100275429B1 (ko) | 음성 부호화 장치 | |
KR20010039504A (ko) | 웨이브테이블 합성기내에 이용되는 음 샘플 사전 처리용 주기 촉성 필터 | |
JP2001508886A (ja) | サウンドシンセサイザにおける指数減衰の近似装置および方法 | |
Keiler et al. | Efficient linear prediction for digital audio effects | |
US5872727A (en) | Pitch shift method with conserved timbre | |
JPH1195753A (ja) | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 | |
US5797120A (en) | System and method for generating re-configurable band limited noise using modulation | |
EP0440335A2 (en) | Encoding speech | |
US6477496B1 (en) | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one | |
JP4826580B2 (ja) | 音声信号の再生方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040126 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080213 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090213 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090213 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100213 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110213 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120213 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |