JP4420562B2 - 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法 - Google Patents
背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法 Download PDFInfo
- Publication number
- JP4420562B2 JP4420562B2 JP2000547612A JP2000547612A JP4420562B2 JP 4420562 B2 JP4420562 B2 JP 4420562B2 JP 2000547612 A JP2000547612 A JP 2000547612A JP 2000547612 A JP2000547612 A JP 2000547612A JP 4420562 B2 JP4420562 B2 JP 4420562B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech signal
- background noise
- speech
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Processing (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
【発明の分野】
この発明は、通信の分野に関する。より具体的には、この発明は、符号化音声通信の分野に関する。
【0002】
【背景技術】
2人以上の人の間の会話の際には、周囲または背景ノイズは典型的には、人の耳の全般的な聴覚経験に固有のものである。図1は、典型的な録音された会話のアナログ音波100を示し、これは、音声通信によって生じる音声群104〜108とともに背景または周囲のノイズ信号102を含む。音声通信の伝送、受信および記憶の技術的分野では、音声群104〜108の符号化および復号化にはいくつかの異なった技術が存在する。音声群104〜108の符号化および復号化の技術の1つは、符号励起線形予測(CELP)コーダなど、分析合成符号化システム(analysis-by-synthesis coding system)を用いるものであり、たとえば国際電気通信連合(International Telecommunication Union、ITU)推奨G.729を参照されたい。
【0003】
図2は、音声の符号化および復号化のための先行技術の分析合成システム200の一般的な概略ブロック図を示す。図1の音声群104〜108の符号化および復号化のための分析合成システム200は、対応する合成ユニット220とともに分析ユニット204を利用する。分析ユニット204は、CELPコーダなどの、分析合成タイプの音声コーダを表わす。符号励起線形予測コーダは、通信ネットワークおよび記憶容量の制約に見合うために中間のまたは低いビットレートで音声群104〜108を符号化する方法の1つである。
【0004】
音声を符号化するために、分析ユニット204の図2のマイクロホン206は、入力信号として図1のアナログ音波100を受取る。マイクロホン206は、受取ったアナログ音波100を、アナログ−デジタル(A/D)サンプラ回路208に出力する。アナログ−デジタルサンプラ208は、アナログ音波100を、サンプリングされたデジタル音声信号(離散的時間期間にわたってサンプリングされている)に変換し、これは線形予測係数(LPC)抽出器210およびコードブック214に出力される。
【0005】
図2の線形予測係数抽出器210は、A/Dサンプラ208から受取ったサンプリングされたデジタル音声信号から線形予測係数を抽出する。隣接する音声サンプルどうしの間の短期相関に関連する線形予測係数は、サンプリングされたデジタル音声信号の声道を表わす。決定された線形予測係数は次に、上述のとおり、インデックスを備えるルックアップテーブルを用いてLPC抽出器210によって量子化される。LPC抽出器210は次に、量子化された線形予測係数のインデックス値とともに、サンプリングされたデジタル音声信号の残余をピッチ抽出器212に伝送する。
【0006】
図2のピッチ抽出器212は、線形予測係数抽出器210から受取ったサンプリングされたデジタル音声信号内のピッチ周期どうしの間に存在する長期相関を除去する。言い換えれば、ピッチ抽出器212は、受取ったサンプリングされたデジタル音声信号から周期性を除去し、その結果白色残差音声信号が得られる。決定されたピッチ値は次に、上述のとおり、インデックスを備えるルックアップテーブルを用いてピッチ抽出器212によって量子化される。ピッチ抽出器212は次に、量子化された線形予測係数および量子化されたピッチのインデックス値を記憶装置/伝送ユニット216に伝送する。
【0007】
図2のコードブック214は、コードワードと呼ばれる、特定の数の記憶されたデジタルパターンを含む。コードブック214は通常、当業者には公知であるように、最良の代表ベクトルを与え、何らかの知覚される態様で残差信号を量子化するために検索される。選択されたコードワードまたはベクトルは典型的には、固定の励起コードワードと呼ばれる。受取った信号を表わす最良のコードワードを決定した後、コードブック回路214はまた、受取った信号の利得係数を計算する。決定された利得係数は次に、インデックスを備えるルックアップテーブルを用いてコードブック214によって量子化されるが、これは当業者には周知の量子化方式である。コードブック214は次に、量子化された利得のインデックス値とともに決定されたコードワードのインデックスを、記憶装置/伝送器ユニット216に伝送する。
【0008】
分析ユニット204の図2の記憶装置/伝送器216は次に、通信ネットワーク218を介して合成ユニット220にピッチ、利得、線形予測係数のインデックス値およびコードワードを伝送するが、これらはすべて、受取ったアナログ音波信号100を表わすものである。合成ユニット220は、記憶装置/伝送器216から受取った異なったパラメータを復号化し、合成音声信号を得る。人が合成音声信号を聞くことを可能にするために、合成ユニット220は、合成音声信号をスピーカ222に出力する。
【0009】
図2を参照して上述した分析合成システム200に関連した不利益が存在する。分析ユニット204が中間または低いビットレートでアナログ音波100をサンプリングした場合、合成ユニット220によって発生され、スピーカ222によって出力された符号化音声は、自然に聞こえない。図3は、合成ユニット220によってスピーカ222に出力された合成音声信号300の例を示す。合成音声信号300は、音声群304〜308とともに背景ノイズ302を含む。合成音声300内には、音声群304〜308内で発生された、減衰された背景ノイズ302があることに注目されたい。この現象の理由は、分析ユニットコーダ204は、アナログ音波100の図1の音声群104〜108をモデリングするために特に調整されており、音声群104〜108内に存在する背景ノイズ102を適切に再生することができないということである。したがって、合成音声信号300がスピーカ222によって出力されたとき、これは、音声群304〜308の初めおよび終わりで生じる、背景ノイズ302の振幅における突然の変化のために、人の耳には不自然に聞こえる。
【0010】
したがって、音声を符号化および復号化するための分析合成システムの分析ユニットによって中間または低いビットレートで符号化された音声信号を考慮すると、人の耳に自然かつ現実的に聞こえる合成音声信号を合成ユニットが出力することを可能とするシステムを提供することが有利であろう。この発明は、この利点を提供する。
【0011】
【発明の概要】
この発明は、背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法を含む。たとえば、この発明は、通信ネットワークを介して符号化音声信号を受取り、次に、その中に含まれる異なったパラメータを復号化しかつ合成し、合成音声信号を発生する。この発明は、合成音声信号内に表わされる非音声期間を決定する。決定された非音声期間は次に、シミュレートされた背景ノイズを出力信号に注入するために利用される。さらに、非音声期間はまた、シミュレートされた背景ノイズを合成音声信号の音声期間といつ組合せるべきかを決定するために、この発明によって使用される。この発明の結果得られた出力信号は、音声期間どうしの間に実質的に存在する背景ノイズとは対照的に、背景ノイズの連続的な存在のために、人の耳にはより自然かつ現実的に聞こえる向上された合成音声信号である。
【0012】
背景ノイズが共存する符号化音声の品質を向上させるための方法であって、この方法は、(a)合成音声部分および合成背景ノイズ部分を有する合成音声信号を発生するステップを含み、受取られた符号化音声信号に基づく合成音声信号は、線形予測係数、ピッチ係数、励起コードワードおよびエネルギ(利得)を含み、さらにこの方法は、(b)合成音声信号の合成背景ノイズ部分に対応する符号化音声信号から抽出されたエネルギおよび線形予測係数のサブセットを用いて背景ノイズ信号を生成するステップと、(c)背景ノイズ信号および合成音声信号を組合せ、自然に聞こえる出力合成音声信号を発生するステップとを含む。
【0013】
この明細書の一部に組込まれかつこれを形成する添付の図面は、この発明の実施例を例示し、この説明とともに、この発明の原理を説明する役割を果たす。
【0014】
【詳細な説明】
この発明の、背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法の以下の詳細な説明では、この発明を完全に理解するために、多くの具体的詳細が述べられる。しかしながら、この発明はこれらの具体的詳細なしに実施可能であることは、当業者には明らかである。他の場合には、周知の方法、処理、構成要素および回路は、この発明の局面を不必要にわかりにくくしないように詳細には記載されない。
【0015】
この発明は、符号化音声通信の分野内で動作する。具体的には、図4は、この発明が動作する通信および記憶装置のための、音声を符号化し復号化するために用いられる分析合成システム400の一般的な概略を示す。分析ユニット402は、背景ノイズとともに音声通信の表示を構成する信号である会話信号412を受取る。この発明における分析ユニット402のある実施例は、先に記載された図2の分析ユニット204と同じ電気的構成要素および動作を有する。分析ユニット402は、会話信号412を、音声部分および背景ノイズ部分を含むデジタルの(圧縮された)符号化音声信号414に符号化する。受取った会話信号412を符号化した後、分析ユニット402は、符号化音声信号414を通信ネットワーク406を介して受信機416(たとえば電話または携帯電話)に伝送するか、または、記憶装置404(たとえば、磁気または光学記録装置または留守番電話)に伝送することが可能である。
【0016】
図4の受信機416は、通信ネットワーク406を介して受信すると、符号化音声信号414を合成ユニット408に転送する。合成ユニット408は、受信した符号化音声信号414によって表わされる合成音声信号を発生する。加えて、この発明に従って、合成ユニット408は、受信した符号化音声信号414内に表わされる受信した背景ノイズを利用して、シミュレートされた背景ノイズを生成し、これは合成音声信号と適切に組合される。合成ユニット408から結果として得られた出力信号は、信号の音声期間中およびそれらの間に連続したレベルの背景ノイズを有する向上された合成音声信号である。スピーカ410は、合成ユニット408から受取った向上された合成音声信号を出力するが、これは、音声期間どうしの間に実質的に存在する背景ノイズとは対照的に、背景ノイズが連続しているために人の耳にはより現実的かつ自然に聞こえる。
【0017】
図4の記憶装置404は、分析ユニット402の出力の1つに任意で接続され、いかなる符号化音声信号414をも記憶する記憶能力を提供し、後からある所望のときにこれを再生することができる。この発明に従う記憶装置404のある実施例は、ランダムアクセスメモリ(RAM)ユニット、フロッピーディスク、ハードドライブメモリユニットまたはデジタル留守番電話メモリである。記憶された符号化音声信号414が後に再生されると、これは記憶装置404から合成ユニット418にまず出力される。合成ユニット418は、上述した合成ユニット408と同じ機能を果たす。合成ユニット418から得られる出力信号は、信号の音声期間中およびそれらの間に連続したレベルの背景ノイズを有する、向上された合成音声信号である。スピーカ420は、合成ユニット408から受取った向上された合成音声信号を出力するが、これは人の耳にはより現実的かつ自然に聞こえる。
【0018】
図5は、合成回路500のブロック図を示すものであるが、これは、この発明の実施例に従う図4の合成ユニット408のある実施例である。合成回路500のデコーダ回路502は、通信ネットワーク406を介して符号化音声信号414を受信する構成要素である。デコーダ回路502は次に、音声通信412を表わす、符号化音声信号414内で受取られる異なったパラメータを復号化しかつ合成する。音声信号414は、符号化された線形予測係数(LPC)、ピッチ係数、固定の励起コードワードおよびエネルギを含む。符号化音声信号414内に含まれるエネルギから利得係数を得ることが可能であることが認められる。デコーダ回路502は、線形予測係数およびエネルギの両方を含む信号510を、ノイズ生成器回路504に伝送する。さらに、デコーダ回路502は、合成音声信号512を、加算器回路508および音声活性検出器(VAD)回路506の両方に伝送する。合成音声信号512は、合成音声部分および合成背景ノイズ部分を含む。この発明に従うデコーダ回路502のある実施例は、ソフトウェアで実現される。
【0019】
図5のノイズ生成器回路504は、信号510の線形予測係数のサブセットおよびエネルギのサブセットを利用し、シミュレートされた背景ノイズ信号516を発生し、これは加算器回路508に伝送される。加算器回路508は、出力信号518を人の耳により自然に聞こえるようにするために、シミュレートされた背景ノイズ信号516を合成音声信号512の合成音声部分に加算する。さらに、加算器回路508は、合成音声信号516の非音声部分または合成背景ノイズ部分をその出力に通過させ、これは自然に聞こえる出力合成音声信号518の一部となる。加算器回路508は、以下に記載する音声活性検出器回路506によって伝送される信号514の受信に基づいて、どの機能を果たすかが異なっている。この発明に従うと、ノイズ生成器回路504および加算器回路508もまた、ソフトウェアで実現可能である。
【0020】
図5の音声活性検出器回路506は、受取った合成音声信号512内に含まれる合成された非音声期間(たとえば合成背景ノイズのみの期間)を合成音声期間から区別する。音声活性検出器回路506が合成音声信号512の非音声期間を決定すると、これは、信号514としてノイズ生成器回路504および加算器回路508の両方に表示を伝送する。ノイズ生成器回路504は、信号514を利用し、シミュレートされた背景ノイズ信号516の発生の際にこれを支援する。この発明に従う音声活性検出器回路506のある実施例は、ソフトウェアで実現される。
【0021】
加算器回路508による図5の信号514の受信は、これが行なう特定の機能を左右し、自然な音の出力合成音声信号518を発生する。具体的には、信号514内に含まれる非音声期間は、受取った合成音声信号512内に含まれる合成非音声期間をその出力にいつ通過させるかを、加算器回路508に示す。さらに、信号514内に含まれる音声期間は、受取った合成音声信号512内に含まれる合成音声期間と受取ったシミュレートされた背景ノイズ信号516とをいつ加算するべきかを、加算器回路508に示す。
【0022】
図6は、合成回路600のブロック図を示し、これは、この発明の実施例に従う図4の合成ユニット408の別の実施例である。合成回路600は、図5の合成回路500と類似しているがただし、これは音声活性検出器回路506を含まない。デコーダ回路502、ノイズ生成器回路504および加算器回路508は各々、一般的には、図5を参照して上述したのと同じ機能を果たす。付加機能を行なう合成回路600内の構成要素は、デコーダ回路502のみである。デコーダ回路502が、合成音声信号512の非音声期間を示す信号514を発生するために、図4の分析ユニット402は、図5の音声活性検出器回路506と同じ機能を果たす音声活性検出器回路も含む。分析ユニット402内に位置する音声活性検出器回路によって決定される非音声期間データは次に、符号化音声信号414内に含まれる。
【0023】
図7は、図5および図6内に位置するこの発明の実施例に従うデコーダ回路502のある実施例のブロック図を示す。励起コードブック回路702、ピッチ合成フィルタ回路704および線形予測係数合成フィルタ回路706は各々、図4の通信ネットワーク406を介して転送された符号化音声信号414を受取る。励起コードブック回路702は、固定の励起コードワードを受取り、受取った符号化音声信号414内に表わされたその利得値によって乗算された対応するデジタル信号パターンを信号710として発生する。励起コードブック回路702は次に、信号710をピッチ合成フィルタ回路704に伝送する。この発明に従う励起コードブック回路702のある実施例は、ソフトウェアで実現される。
【0024】
図7のピッチ合成フィルタ回路704は、符号化音声信号414内に含まれる符号化されたピッチ係数を受取り、対応する復号化されたピッチ信号を発生し、出力信号712を発生するために、これを受取った信号710と合成する。線形予測係数合成フィルタ回路706は、符号化音声信号414内に含まれる符号化された線形予測係数を受取り、これは、「合成」されてから信号712に加えられ、合成音声信号512を発生する。線形予測係数合成フィルタ回路706はまた、エネルギおよび線形予測係数を含む信号510を、図5および図6のノイズ生成器回路504に出力する。この発明に従うと、ピッチ合成フィルタ回路704および線形予測係数合成フィルタ回路706もまた、ソフトウェアで実現可能である。
【0025】
図8は、図5および図6内に位置するこの発明の実施例に従うノイズ生成器回路504のある実施例のブロック図を示す。移動平均回路806は、図5の音声活性検出器506から非音声信号514を受取り、かつ図7の線形予測係数合成フィルタ回路706からエネルギおよび線形予測係数を含む信号510を受取る構成要素である。信号514は、信号510の線形予測係数およびエネルギ内に存在する非音声期間(たとえば合成背景ノイズのみの期間)を、移動平均回路806に示す。移動平均回路806は次に、信号510内に表わされる背景ノイズ期間に対応する受取った線形予測係数の移動平均値を決定する。さらに、移動平均回路806は、信号510内に表わされる背景ノイズ期間に対応するエネルギの移動平均値も決定する。したがって、移動平均回路806は、非音声期間の合成背景ノイズに対応する、エネルギの決定された移動平均および線形予測係数の決定された移動平均値を連続的に記憶する。移動平均回路806は次に、両方の記憶された移動平均値のコピーを信号812として、線形予測係数合成フィルタ回路804に出力する。
【0026】
別の実施例では、図8の移動平均回路806を図7の線形予測係数合成フィルタ回路706内に位置付けることも可能である。さらに、別の実施例では、移動平均回路806を線形予測係数合成フィルタ回路706内に部分的に位置付けることも可能であり、一方で残りの回路構成を図8のノイズ生成器回路504内に位置づける。具体的には、背景ノイズの、線形予測係数の移動平均値およびエネルギの移動平均値を決定する移動平均回路806の回路構成は、線形予測係数合成フィルタ回路706内に位置付けられ、一方で、移動平均回路806の記憶回路は、ノイズ生成器回路504内に位置付けられる。この発明に従う移動平均回路806のある実施例は、ソフトウェアで実現される。
【0027】
図8の白色ノイズ生成器回路802は、白色ガウスノイズ信号810を発生し、これは線形予測係数合成フィルタ回路804に出力される。この発明に従う白色ノイズ生成器回路802のある実施例は、乱数生成器回路である。この発明に従う白色ノイズ生成器回路802の別の実施例は、ソフトウェアで実現される。線形予測係数合成フィルタ回路804は、受取った信号810および812を用いて、シミュレートされた背景ノイズ信号516を発生し、これは図5および図6の加算器回路508に出力される。この発明に従う線形予測係数合成フィルタ回路804のある実施例は、ソフトウェアで実現される。
【0028】
図9は、この発明の実施例に従う図5および図6の合成回路500および600によってそれぞれ出力されるより自然に聞こえる合成音声信号518を示す。自然に聞こえる出力合成音声信号518は、背景ノイズ902および合成音声群904〜908を含む。背景ノイズ902は、合成音声群904〜908中およびそれらの間に連続して存在することに注目されたい。この発明によってシミュレートされた背景ノイズを合成音声群904〜908とを組合せることによって、向上された合成音声信号518は、人の耳に自然かつ現実的に聞こえる。
【0029】
この発明の特定の実施例の前の記載は、例示および説明の目的で提示された。これは、余すところないまたはこの発明を開示された正確な態様に限定するものではなく、明らかに、多くの変形および変更が上記教示に鑑みて可能である。実施例は、この発明の原理およびその実践的適用を最もよく説明するために選択され記載され、これによって当業者が、企図された特定の使用に適合するようなさまざまな変形でこの発明およびさまざまな実施例を最良に利用することを可能とする。この発明の範囲は、前掲の特許請求の範囲およびその等価によって定義されることが意図される。
【図面の簡単な説明】
【図1】 信号にわたって背景または周囲ノイズを含む典型的な音声の会話のアナログ音波を示す図である。
【図2】 音声の符号化および復号化のための先行技術の分析合成システムの一般的な概略ブロック図である。
【図3】 先行技術のシステムに従う合成ユニットによって出力される合成音声信号を示す図である。
【図4】 この発明が動作する音声の符号化および復号化のための分析合成システムの一般的概略図である。
【図5】 図4の分析合成システム内に位置するこの発明の実施例に従う合成ユニットのある実施例のブロック図である。
【図6】 図4の分析合成システム内に位置するこの発明の実施例に従う合成ユニットの別の実施例のブロック図である。
【図7】 図5および図6の合成ユニット内に位置するこの発明の実施例に従うデコーダ回路のある実施例のブロック図である。
【図8】 図5および図6の合成ユニット内に位置するこの発明の実施例に従うノイズ生成器回路のある実施例のブロック図である。
【図9】 この発明の実施例に従う合成ユニットによって出力されるより自然に聞こえる合成音声信号の図である。
Claims (16)
- 合成音声信号の品質を向上させるための方法であって、前記方法は、
(a) 音声部分および背景ノイズ部分を有する符号化音声信号から前記合成音声信号を発生するステップを含み、前記符号化音声信号は、線形予測係数、ピッチ係数、励起コードワードおよびエネルギを含み、さらに、
(b) 前記符号化音声信号の前記背景ノイズ部分および前記音声部分に対応する合成音声信号の部分を決定するステップと、
(c) 前記符号化音声信号の前記背景ノイズ部分に対応する前記エネルギおよび前記線形予測係数のサブセットを用いて背景ノイズ信号を発生するステップと、
(d) 前記背景ノイズ信号を前記符号化音声信号の前記音声部分に対応する前記合成音声信号に付加して、自然に聞こえる出力合成音声信号を発生するステップとを含む、方法。 - 前記ステップ(c)は、前記符号化音声信号の前記背景ノイズ部分に対応する前記線形予測係数のサブセットの移動平均値および前記エネルギの移動平均値を決定するステップをさらに含み、前記移動平均値は、前記背景ノイズ信号を発生するために用いられる、請求項1に記載の方法。
- 前記ステップ(c)は、白色ノイズ信号を前記符号化音声信号の前記音声部分に対応する前記合成音声信号に付加するステップをさらに含む、請求項2に記載の方法。
- 前記白色ノイズ信号は、乱数生成器回路によって発生される、請求項3に記載の方法。
- 前記ステップ(a)は、
前記符号化音声信号の前記励起コードワードを用いて前記励起コードワードに対応するデジタル信号パターンを発生するステップと、
前記デジタル信号パターンを用いて前記合成音声信号を部分的に合成するステップと、
前記符号化音声信号の前記ピッチ係数を用いて前記合成音声信号を部分的に合成するステップと、
前記符号化音声信号の前記線形予測係数を用いて前記合成音声信号を部分的に合成するステップとをさらに含む、請求項4に記載の方法。 - 合成音声信号の品質を向上させるための方法であって、前記方法は、
(a) 線形予測係数、ピッチ係数、励起コードワードおよびエネルギを含む符号化音声信号から前記合成音声信号を発生するステップと、
(b) 前記線形予測係数のサブセットおよび前記符号化音声信号の前記エネルギを用いて背景ノイズ信号を発生するステップと、
(c) 前記合成音声信号の音声期間および非音声期間を決定するステップと、
(d) 前記合成音声信号の前記音声期間の間、前記背景ノイズ信号を前記合成音声信号に付加し、自然に聞こえる出力合成音声信号を発生するステップとを含む、方法。 - 前記ステップ(b)は、前記合成音声信号の背景ノイズ部分に対応する前記線形予測係数のサブセットの移動平均値および前記エネルギの移動平均値を決定するステップをさらに含み、前記移動平均値は、前記背景ノイズ信号を発生するために用いられる、請求項6に記載の方法。
- 前記ステップ(b)は、白色ノイズ信号を前記符号化音声信号の前記音声部分に対応する前記合成音声信号に付加するステップをさらに含む、請求項7に記載の方法。
- 前記白色ノイズ信号は、乱数生成器回路によって発生される、請求項8に記載の方法。
- 前記ステップ(a)は、
前記符号化音声信号の前記励起コードワードを用いて前記励起コードワードに対応するデジタル信号パターンを発生するステップと、
前記デジタル信号パターンを用いて前記合成音声信号を部分的に合成するステップと、
前記符号化音声信号の前記ピッチ係数を用いて前記合成音声信号を部分的に合成するステップと、
前記符号化音声信号の前記線形予測係数を用いて前記合成音声信号を部分的に合成するステップとをさらに含む、請求項8に記載の方法。 - 合成音声信号の品質を向上させるための装置であって、前記装置は、
線形予測係数、ピッチ係数、励起コードワードおよびエネルギを含む符号化音声信号から前記合成音声信号を発生するためのデコーダ回路を含み、前記符号化音声信号は、音声部分および背景ノイズ部分を有し、さらに、
前記デコーダ回路に結合され、前記符号化音声信号の前記背景ノイズ部分に対応する前記線形予測係数のサブセットおよび前記エネルギを用いて背景ノイズ信号を発生するためのノイズ生成器回路を含み、さらに、
前記デコーダ回路および前記ノイズ生成器回路に結合される加算器を含み、前記背景ノイズ信号を前記符号化音声信号の前記音声部分に付加して自然に聞こえる出力合成音声信号を発生する、装置。 - 前記符号化音声信号の前記背景ノイズ部分に対応する前記エネルギの移動平均値および前記線形予測係数のサブセットの移動平均値を決定するための移動平均回路をさらに含む、請求項11に記載の装置。
- 前記ノイズ生成器回路は、白色ノイズ信号を発生するための白色ノイズ生成器回路をさらに含み、前記ノイズ生成器回路は、前記白色ノイズ信号を用いて前記背景ノイズ信号を発生する、請求項12に記載の装置。
- 前記白色ノイズ生成器回路は、乱数生成器回路である、請求項13に記載の装置。
- 前記ノイズ生成器回路は、前記移動平均値を受取るよう前記移動平均回路に結合される第1の線形予測係数合成フィルタ回路をさらに含み、前記第1の線形予測係数合成フィルタ回路は、前記白色ノイズ信号を受取るよう前記白色ノイズ生成器回路にさらに結合され、前記第1の線形予測係数合成フィルタ回路は、前記白色ノイズ信号および前記移動平均値を用いて前記背景ノイズ信号を発生する、請求項13に記載の装置。
- 前記デコーダ回路は、
前記符号化音声信号を受取るよう結合され、前記符号化音声信号の前記励起コードワードを用いて前記励起コードワードに対応するデジタル信号パターンを発生する励起コードブック回路をさらに含み、前記デコーダ回路は、前記デジタル信号パターンを用いて前記合成音声信号を部分的に合成し、さらに、
前記符号化音声信号を受取るよう結合され、前記ピッチ係数を用いて前記合成音声信号を部分的に合成するピッチ合成フィルタ回路と、
前記符号化音声信号を受取るよう結合され、前記線形予測係数および前記エネルギを用いて前記合成音声信号を部分的に合成する第2の線形予測係数合成フィルタ回路とをさらに含む、請求項15に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/075,365 | 1998-05-05 | ||
US09/075,365 US6122611A (en) | 1998-05-11 | 1998-05-11 | Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise |
PCT/US1999/009764 WO1999057715A1 (en) | 1998-05-05 | 1999-05-04 | A system and method to improve the quality of coded speech coexisting with background noise |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003522964A JP2003522964A (ja) | 2003-07-29 |
JP4420562B2 true JP4420562B2 (ja) | 2010-02-24 |
Family
ID=22125228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000547612A Expired - Fee Related JP4420562B2 (ja) | 1998-05-11 | 1999-05-04 | 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6122611A (ja) |
EP (1) | EP1076895B1 (ja) |
JP (1) | JP4420562B2 (ja) |
AT (1) | ATE232008T1 (ja) |
DE (1) | DE69905152T2 (ja) |
WO (1) | WO1999057715A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
JP2001242896A (ja) * | 2000-02-29 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 音声符号化/復号装置およびその方法 |
US20030093270A1 (en) * | 2001-11-13 | 2003-05-15 | Domer Steven M. | Comfort noise including recorded noise |
US8874437B2 (en) * | 2005-03-28 | 2014-10-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal for voice quality enhancement |
US8000958B2 (en) * | 2006-05-15 | 2011-08-16 | Kent State University | Device and method for improving communication through dichotic input of a speech signal |
US20070270987A1 (en) | 2006-05-18 | 2007-11-22 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
US8195454B2 (en) | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
US20090154718A1 (en) * | 2007-12-14 | 2009-06-18 | Page Steven R | Method and apparatus for suppressor backfill |
JP5538425B2 (ja) | 2008-12-23 | 2014-07-02 | コーニンクレッカ フィリップス エヌ ヴェ | スピーチ取り込み及びスピーチレンダリング |
US8589153B2 (en) * | 2011-06-28 | 2013-11-19 | Microsoft Corporation | Adaptive conference comfort noise |
PL2869299T3 (pl) * | 2012-08-29 | 2021-12-13 | Nippon Telegraph And Telephone Corporation | Sposób dekodowania, urządzenie dekodujące, program i nośnik pamięci dla niego |
ES2588156T3 (es) | 2012-12-21 | 2016-10-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generación de ruido de confort con alta resolución espectro-temporal en transmisión discontinua de señales de audio |
ES2688021T3 (es) * | 2012-12-21 | 2018-10-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Adición de ruido de confort para modelar ruido de fondo a bajas tasas de bits |
EP4128223B1 (en) * | 2020-04-02 | 2025-01-01 | Dolby Laboratories Licensing Corporation | Systems and methods for enhancing audio in varied environments |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02288520A (ja) * | 1989-04-28 | 1990-11-28 | Hitachi Ltd | 背景音再生機能付き音声符号復号方式 |
US5327457A (en) * | 1991-09-13 | 1994-07-05 | Motorola, Inc. | Operation indicative background noise in a digital receiver |
SE9500858L (sv) * | 1995-03-10 | 1996-09-11 | Ericsson Telefon Ab L M | Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning |
FR2739995B1 (fr) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
US5794199A (en) * | 1996-01-29 | 1998-08-11 | Texas Instruments Incorporated | Method and system for improved discontinuous speech transmission |
US5864799A (en) * | 1996-08-08 | 1999-01-26 | Motorola Inc. | Apparatus and method for generating noise in a digital receiver |
-
1998
- 1998-05-11 US US09/075,365 patent/US6122611A/en not_active Expired - Lifetime
-
1999
- 1999-05-04 EP EP99920339A patent/EP1076895B1/en not_active Expired - Lifetime
- 1999-05-04 JP JP2000547612A patent/JP4420562B2/ja not_active Expired - Fee Related
- 1999-05-04 DE DE69905152T patent/DE69905152T2/de not_active Expired - Lifetime
- 1999-05-04 AT AT99920339T patent/ATE232008T1/de not_active IP Right Cessation
- 1999-05-04 WO PCT/US1999/009764 patent/WO1999057715A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
EP1076895A1 (en) | 2001-02-21 |
DE69905152T2 (de) | 2003-11-20 |
DE69905152D1 (de) | 2003-03-06 |
JP2003522964A (ja) | 2003-07-29 |
US6122611A (en) | 2000-09-19 |
ATE232008T1 (de) | 2003-02-15 |
WO1999057715A1 (en) | 1999-11-11 |
EP1076895B1 (en) | 2003-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5226777B2 (ja) | 音声信号中に埋め込まれた隠れデータの回復 | |
KR100427753B1 (ko) | 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치 | |
US5717823A (en) | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders | |
JP4927257B2 (ja) | 可変レートスピーチ符号化 | |
US20020016161A1 (en) | Method and apparatus for compression of speech encoded parameters | |
US6466904B1 (en) | Method and apparatus using harmonic modeling in an improved speech decoder | |
JP4420562B2 (ja) | 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法 | |
US5251261A (en) | Device for the digital recording and reproduction of speech signals | |
JP2006139306A (ja) | アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置 | |
TW530296B (en) | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions | |
JPH0713600A (ja) | 駆動同期時間符号化ボコーダおよび方法 | |
US6104994A (en) | Method for speech coding under background noise conditions | |
KR20000053407A (ko) | 음성 채널을 통한 비음성 정보 전송 방법 | |
US7089180B2 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
Ding | Wideband audio over narrowband low-resolution media | |
JP2796408B2 (ja) | 音声情報圧縮装置 | |
JPH10326100A (ja) | 音声録音方法及び音声再生方法及び音声録音再生装置 | |
JPH028900A (ja) | 音声符号化復号化方法並びに音声符号化装置及び音声復合化装置 | |
JP3006790B2 (ja) | 音声符号化復号化方法及びその装置 | |
JP3149562B2 (ja) | デジタル音声伝送装置 | |
Sluijter et al. | State of the art and trends in speech coding | |
JP2001034299A (ja) | 音声合成装置 | |
JP2000078274A (ja) | 可変レ―ト符号化システムのためのメッセ―ジ記録装置および可変レ―ト符号化システムにおいてサイズ縮小メッセ―ジを記録する方法 | |
JPH05276049A (ja) | 音声符号化方法及びその装置 | |
JPH04196724A (ja) | 音声符号化復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060711 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061010 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070105 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070911 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131211 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |