[go: up one dir, main page]

JP4999757B2 - 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 - Google Patents

音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 Download PDF

Info

Publication number
JP4999757B2
JP4999757B2 JP2008092985A JP2008092985A JP4999757B2 JP 4999757 B2 JP4999757 B2 JP 4999757B2 JP 2008092985 A JP2008092985 A JP 2008092985A JP 2008092985 A JP2008092985 A JP 2008092985A JP 4999757 B2 JP4999757 B2 JP 4999757B2
Authority
JP
Japan
Prior art keywords
speech
unit
conversion
voice
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008092985A
Other languages
English (en)
Other versions
JP2009244723A (ja
Inventor
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008092985A priority Critical patent/JP4999757B2/ja
Publication of JP2009244723A publication Critical patent/JP2009244723A/ja
Application granted granted Critical
Publication of JP4999757B2 publication Critical patent/JP4999757B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、入力された音声信号の発話速度を所望の速度に変換した音声信号を出力することができる、音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体に関するものである。
これまでに、与えられた音声信号の発話スタイルを変換して音声を合成する方法として、音声スペクトルに着目した方法が提案されている(例えば、非特許文献1を参照)。しかしながら、音声スペクトルのみからでは、発話スタイルの特徴をうまく捉えることが困難であり、現時点では十分な品質が得られないという問題がある。
音声を調音運動の観点から捉え、調音運動に基づき発話スタイルを変換させる方法は、上記の音声スペクトルを用いる場合と比較して、より直感的であり、精度が良くなることが期待される。しかしながら、調音運動と音声スペクトルとの間の非線形な写像関係により、調音運動に基づき変換した発話スタイルの特徴が、写像後の音声スペクトルにうまく反映されないという問題がある(例えば、特許文献1を参照)。
最も基本的な発話スタイルの制御として、話速の変換があるが、音声信号そのものに時間軸伸縮を施すと、基本周波数も変化してしまうという問題があるため、ピッチ同期分析を用いることが提案されている(例えば、非特許文献2を参照)。しかしながら、ピッチ同期分析を行うために必要なピッチマークの抽出において、従来のLPC(線形予測係数)予測残差信号の絶対値の閾値処理に基づく方法では、特に基本周波数の高い女声においてピッチマークをうまく抽出できないことが知られている(例えば、非特許文献3を参照)。また、ピッチ同期分析は、固定窓長および固定フレームシフト長を用いた音声信号の分析方法と比較して、基本周波数の影響を受けない、安定な音声スペクトルや音源情報の抽出が可能であることが知られている(例えば、非特許文献3を参照)。
音声の合成において、単一パルス系列と白色雑音を切り換える駆動音源を用いた場合では、合成される音声信号の品質が良くないことが問題となる。そこで、単一パルス系列の代わりに、位相等化音声信号との誤差が最小になるように決定されたマルチパルス系列を用いる手法があるが、有声と無声が切り替わる部分においてバズ的な音声を生じる問題がある(例えば、特許文献2を参照)。一方、バズ的な音声を改善する方法として、周波数帯域毎の有声/無声判定に基づき、単一パルス系列と白色雑音、を混合する駆動音源が提案されているが、さらなる品質の向上が必要とされている(例えば、非特許文献4参照)。
Tachibana,M.,Yamagishi,J.,Masuko,T.,and Kobayashi,T.,"Speech synthesis with various emotional expressions and speaking styles by style interpolation and morphing,"IEICE Trans.Information and Systems,E88-D, 11, pp.2484-2491(2005). Moulines,E., and Charpentier,F.,"Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones,"Speech Communication,9,pp.453-467(1990). Miyoshi,Y.,Yamato,K.,Mizoguchi.R.,Yanagida,M.,and Kakusho,O.,"Analysis of speech signals of short pitch period by a sample-selective linear prediction,"IEEE Trans. Signal Processing, 35, 9, pp. 1233-1240(1987).. McCree, A.V.,and Barnwell,T.P.,"A mixed excitation LPC vocoder model for low bit rate speech coding," IEEE Trans. Speech and Audio Processing,3,4, pp. 242-249(1995). 特許第3412798号公報 特公平7−82360号公報
調音運動に基づく発話スタイルの変換において、上記の特許文献1で提案されている調音パラメータから音声スペクトルへの写像を用いた場合、十分な品質の音声信号を合成できないという問題がある。従って、調音パラメータから音声スペクトルへの写像処理を介さずに、発話スタイルの変換に関わる調音パラメータの特徴を、直接音声スペクトルの変換に生かす技術が必要となる。
本発明は、斯かる実情に鑑みなされたものであり、本発明の目的は、入力音声の各部分ごとの局所的な発話速度を、所望の速度に変換した音声を出力することができるようにし、入力音声の発話速度の局所的なばらつきを少なくし、聞き取りやすい音声を出力することができる、音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体を提供することにある。
本発明は上記課題を解決するためになされたものであり、同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置であって、前記音声分析部は、前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算部と、前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成部と、前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算部と、前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算部と、前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算部と、前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算部と、前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算部と、前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算部と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算部と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算部と、を備え、前記音声変換部は、前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算部と、前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換部と、前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換部と、前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換部と、前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換部と、前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換部と、を備え、前記音声合成部は、前記基本周波数変換部において変換された基本周波数と、前記位相等化パルス音源フィルタ変換部により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換部において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成部と、前記LSP係数変換部により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算部と、を備え、前記有声強度計算部が前記音声強度を算出する場合、前記白色雑音ゲイン計算部が前記白色雑音ゲインを算出する場合、および、前記駆動音源生成部が前記位相等化パルス音源を生成する場合、分析窓長を2ピッチ周期分として算出または生成する、ことを特徴とする音声分析合成装置である。
また、本発明は、前記音声合成部が、前記LSP係数変換部により変換されたLSP係数をLPC係数に変換するLPC係数計算部を有し、前記畳み込み演算部が、前記LPC係数計算部において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、ことを特徴とする記載の音声分析合成装置である。
また、本発明は、前記音声変換部のLSP係数変換部と基本周波数変換部と位相等化パルス音源フィルタ変換部と白色雑音ゲイン変換部と有声強度変換部とは、それぞれ、時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxを使用し、「dx=sqrt(Σ(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、ここで、sqrtは根号、調音速度の単位はmm」、また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出し、さらに、すべての時刻tにおいて、「dx<=t×avedx、かつdxk+1>t×avedx」となるkを求め、時刻tにおけるパラメータを、次の式により線型補間すること、「((dxk+1−t×avedx)×p+(t×avedx−dx)×pk+1)/(dxk+1−dx)、ここで、Pは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源のフィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、を特徴とする音声分析合成装置である。
また、本発明は、同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置における音声分析合成方法であって、前記音声分析部により、前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算手順と、前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成手順と、前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算手順と、前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算手順と、前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算手順と、前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算手順と、前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算手順と、前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算手順と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算手順と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算手順と、が行われ、前記音声変換部により、前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算手順と、前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換手順と、前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換手順と、前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換手順と、前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換手順と、前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換手順と、を行われ、前記音声合成部により、前記基本周波数変換手順において変換された基本周波数と、前記位相等化パルス音源フィルタ変換手順により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換手順において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成手順と、前記LSP係数変換手順により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算手順と、が行われ、前記有声強度計算手順において前記音声強度が算出される場合、前記白色雑音ゲイン計算手順において前記白色雑音ゲインが算出される場合、および、前記駆動音源生成手順において前記位相等化パルス音源が生成される場合、分析窓長を2ピッチ周期分として算出または生成される、ることを特徴とする音声分析合成方法である。
また、本発明は、前記音声合成部により、前記LSP係数変換手順により変換されたLSP係数をLPC係数に変換するLPC係数計算手順が行われ、前記畳み込み演算手順で、前記LPC係数計算手順において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、ことを特徴とする音声分析合成方法である。
また、本発明は、前記音声変換部によるLSP係数変換手順と基本周波数変換手順と位相等化パルス音源フィルタ変換手順と白色雑音ゲイン変換手順と有声強度変換手順とで、それぞれ、前記音声変換部により、時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxを使用する手順と、「dx=sqrt(Σ(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、ここで、sqrtは根号、調音速度の単位はmm」、また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出する手順と、さらに、すべての時刻tにおいて、「dx<=t×avedx、かつdxk+1>t×avedx」となるkを求め、時刻tにおけるパラメータを、次の式により線型補間する手順と、「((dxk+1−t×avedx)×p+(t×avedx−dx)×pk+1)/(dxk+1−dx)、ここで、Pは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、が行われることを特徴とする音声分析合成方法である。
また、本発明は、音声と調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置内のコンピュータに、上述の手順を実行させるためのコンピュータプログラムである。
また、本発明は、上述のコンピュータプログラムを格納すること特徴とするコンピュータ読み取り可能な記録媒体である。
本発明の音声分析合成装置および音声分析合成方法においては、音声分析部おいて、音声信号から、音声スペクトルや音源のパラメータ等を抽出し、また音声変換部により、調音パラメータの速度情報に基づき、音声スペクトルや音源のパラメータ等に所定の変換を施し、ボコーダ型の音声合成器で音声信号を生成するようにしたので、これにより、様々な発話スタイルを与える、高品質な音声を合成することができる。このため、例えば、入力音声の声の高さ(ピッチ)を変えずに、入力音声の各部分ごとの局所的な発話速度を、所望の速度に変換した音声を出力することができる。すなわち、発話速度が速い部分を遅くし、遅い部分は速くするという変換により、入力音声の発話速度の局所的なばらつきを少なくし、聞き取りやすい音声を得ることができる。
また、本発明の音声分析合成装置および音声分析合成方法においては、音声分析部により得られた、LSP係数、基本周波数、位相等化パルス音源のフィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度に対して、調音パラメータの速度情報に基づき、平均調音速度avedxを算出し、すべての時刻tにおいて、「dx<=t×avedx、かつdxk+1>t×avedx」となるkを求め、時刻tにおけるパラメータを、線型補間した、「((dxk+1−t×avedx)×p+(t×avedx−dx)×pk+1)/(dxk+1−dx)、 ここで、Pは、時刻kにおける、LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、を算出するようにしたので、これにより、人間が一定の調音速度で発話した場合の発話スタイルを有する音声を生成することが可能となる。
図1は、本発明の実施の形態に係わる音声分析合成装置の構成を示す図である。
図1に示す本発明の音声分析合成装置は、音声分析合成装置1に、マイク(マイクロフォン)2および、2次元磁気センサシステム3を接続して構成される。
音声分析合成装置1内には、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を有する主制御部11が設けられ、この主制御部11は、音声分析合成装置1内の各処理部の処理動作を統括して制御するための制御部である。また、主制御11内のCPUによりコンピュータシステムが構成されている。
データ入力部12は、インタフェース部13を介して、マイク2および2次元磁気センサシステム3と接続されている。データ入力部12は、マイク2により計測される音声信号と、2次元磁気センサシステム3により計測される調音運動(唇や、舌の運動)の同時計測データを計測する。図1に示す音声分析合成装置1では、例えば、音声信号は16kHzサンプリングで計測し、調音パラメータは、下歯茎付近の1点、上・下唇それぞれの1点、舌上の3点の計6点の水平および垂直位置を毎秒250回のレートで測定する(12次のベクトル)。
また、音声分析合成装置1には、音声分析部100、音声変換部200、およびボコーダ型の音声合成部300を有している。
音声分析部100は、データ入力部12により収集された音声信号を基に、LPC(線形予測係数)、LSP(線スペクトル対)係数、位相等化音声、位相等化パルス音源モデルのフィルタ係数、周波数帯域ごとの有声強度、および白色雑音ゲイン等の算出処理を行なう。
音声変換部200は、調音運動の計測データを基に、LSP係数、基本周波数、位相等化パルス音源モデルのフィルタ係数、白色雑音ゲイン、および周波数帯域ごとの有声強度等の変換処理(例えば、線形補間処理)を行なう。音声合成部300は、音声変換部200おいて変換されたパラメータを用いて、駆動音源を生成すると共に、この駆動音源からの信号を基に音声信号を合成する。音声出力部14は、音声合成部300により合成された音声信号により、音声を出力する。
図2は、音声分析部100の構成を示す図である。
図2に示す音声分析部100内の基本周波数計算部101は、音声信号のパワーにより、音声区間の検出を行ない、基本周波数を抽出する処理を行なう。
パルス系列生成部102は、音声区間内で、基本周波数計算部101により得られた基本周波数を用いて、ピッチ周期に応じたパルス系列を持つパルス系列信号exを生成する処理を行なう。なお、このピッチ周期に応じたパルス系列を持つパルス系列信号exをピッチ波形と呼ぶ(例えば、図8(B)に示すピッチ波形を参照)。
LPC係数計算部103は、音声信号を用いて、通常の線型予測分析を行い、LPC(線型予測分析)係数を算出する。LPC残差計算部104は、LPC係数をフィルタ係数とする逆フィルタによりLPC予測残差波形resを求める(例えば、図8(C)に示すLPC予測残差波形を参照)。
LSP係数計算部105は、LPC係数計算部103により算出されたLPC係数を基に、LSP(線スペクトル対)係数を算出すると共に、これを保持する処理を行なう。
ピッチマーク計算部106は、LPC予測残差信号resと、パルス系列信号exとを基に、ピッチマークを抽出する処理を行なう。(例えば、図8(D)に示すピッチマークを参照)。
位相等化音声計算部107は、音声区間内で、音声信号と、ピッチマーク計算部106で求められたピッチマークと、LPC予測残差信号の波形を用いて、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する(例えば、特許文献2を参照)。
位相等化パルス音源フィルタ計算部108は、音声区間内で、位相等化音声と合成音声信号との聴覚重み付き誤差が最小となるような、位相等化パルス音源モデルを生成すると共に、この位相等化パルス音源モデルのパラメータ(FIRフィルタ係数v)を求める処理を行なう。(例えば、特許文献2を参照)。
有声強度計算部109は、音声信号を、帯域通過フィルタに通し、例えば、4msのフレーム周期毎に自己相関関数、あるいは調波構造指数を計算し、有声強度を算出する処理を行なう(例えば、非特許文献4参照)。白色雑音ゲイン計算部110は、音声区間以外での白色雑音のゲインを算出する処理を行なう。
この音声分析部100における処理の流れを図5に示す。以下、図5を参照して、音声分析部100における処理の流れについて説明する。
最初に、マイクによる音声信号をデータ入力部12より計測する(ステップS101)。例えば、図8(A)に音声信号の波形の例を示す。
続いて、基本周波数計算部101は、得られた音声信号から、音声信号のパワーを基に、音声区間の検出を行う。例えば、本実施の形態では、人間の声道の特性に合わせて30ms程度の分析窓長(分析区間)と、4ms程度の分析シフト長により、瞬時周波数振幅スペクトルに基づき、基本周波数(FOあるいはピッチ周期)を求める(ステップS102)。
この基本周波数の算出には、例えば、IEICEの文献(5)「Arifiant、D., Tanaka,T., Masuko, T., and Kobayashi, T.,“Robust FO estimation of speech signal using harmonicity measure based on instantaneous frequency,”IEICE Trans. Information and Systems, E87-D,12,pp. 2812-2820(2004).」に示される手法を使用することができる。
なお、基本周波数の抽出には、変形自己相関法などの別の手法を用いることも可能であるが、本発明において基本周波数の抽出誤りは、音声の分析や合成の精度に大きな影響を及ぼすため、できるだけ抽出誤りの少ない手法を用いることが重要である。
次に、パルス系列生成部102により、音声区間内で、基本周波数計算部101により求めた基本周波数を用いて、ピッチ周期に応じたパルス系列信号(ピッチ波形)exを生成する(ステップS103)。このピッチ周期に応じたパルス系列信号exの例を、図8(B)に示す。
続いて、LPC係数計算部103により、上記音声信号を用いて、線型予測分析を行い、また、LPC残差計算部104により、LPC逆フィルタによりLPC予測残差波形resを求める。このLPC予測残差波形resの例を、図8(C)に示す。
本実施の形態では、前述のように、LPC分析窓長30ms、分析シフト長4msとし、28次の自己相関法により求め、さらに、基本周波数の影響を避けるためにラグ窓(Lag Window)を用いる。ここで、LPC係数は、LSP係数計算部105により、線スペクトル対(LSP)係数に変換して保持しておく(ステップS104)。
続いて、ピッチマーク計算部106により、音声区間内で、フレーム番号t(フレーム周期4ms)、時刻k(窓長30ms)において、ステップS103で生成したピッチ波形ex(t,k)の絶対値と、ステップS104において求めたLPC予測残差波形res(t,k)の絶対値の間で、フレームt毎に、相互相関関数、
r(t、j)=Σ|res(t,k)|×|ex(t,k+j)|、
を計算し、Σr(t、j)が最大となるようなjの系列を、動的計画法を用いて求める。ここで、|*|は絶対値である。得られるjの系列は、LPC予測残差信号の絶対値が大きな時刻を示しているため、ピッチマークの候補となる。最終的には、得られたピッチマーク候補の近傍で、再度|res|が最大となる時刻を探索し、ピッチマークとして抽出する(ステップS105)。このピッチマークの例を、図8(D)に示す。
次に、位相等化音声計算部107により、音声区間内で、ステップS101において得られた音声信号と、ステップS105で求められたピッチマークと、ステップS104で求められたLPC予測残差信号を用いて、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する(例えば、特許文献2を参照)(ステップS106)。
そして、位相等化パルス音源フィルタ計算部108により、音声区間内で、上記位相等化音声との聴覚重み付き誤差が最小となるような、位相等化パルス音源モデルおよび位相等化パルス音源モデルのパラメータ(FIRフィルタ係数vk)を求める(ステップS107)。ここで、FIRフィルタ(6タップ)の伝達特性は、特許文献2と同様に、次のように表される。
Figure 0004999757
ここで、Tiはピッチマークiにおけるピッチ周期である。
また、白色雑音ゲイン計算部110で算出される白色雑音のゲインは、音声信号sの自己相関関数を、
Figure 0004999757
としたとき、
Figure 0004999757
で与えられる。ここで、PはLPC分析の次数、αkはLPC係数、nはフレーム番号、Nは窓長である。
次に、有声強度計算部109により、音声信号を、0−500,500―1000,1000―2000,2000−3000,3000−4000,4000−5000,5000−6000,6000−7000,7000−8000Hzの帯域通過フィルタにそれぞれ通し、4msのフレーム周期毎に自己相関関数、あるいは調波構造指数(例えば、前述のIEICEの文献(5)を参照)を計算し、これを有声強度とする(例えば、非特許文献4参照)(ステップS108)。
これらの位相等化パルス音源、白色雑音ゲイン、および有声強度の計算には、各ピッチマーク位置を分析開始時点とし、分析窓長は2ピッチ周期分として求める。本実施の形態では、分析にはピッチ同期分析を用いるが、合成には4msフレームシフトを用いるため、ピッチマーク位置と固定長フレームの開始時点が異なることが問題となる。したがって、本実施の形態では、各フレームにおけるパラメータは線型補間により求める。なお、音声区間以外での白色雑音のゲインは、15msの固定窓長、4msの固定フレームシフト長を用いて求める(ステップS109)。
また、図3は、音声変換部200の構成例を示す図である。
図3に示すように、音声変換部200は、調音パラメータの速度(調音速度)を計算する調音速度計算部201を有している。また、調音速度を基に、音声分析部100で求めたそれぞれのパラータを変換(線形補間)するLSP係数変換部202、基本周波数変換部203、位相等化パルス音源フィルタ変換部204、白色雑音ゲイン変換部205、および周波数帯域毎の有声強度変換部206とで構成されている。なお、線形補間については、後述される。
また、図6は、音声変換部における処理の流れを示す図である。以下、図6を参照して、その処理の流れについて説明する。
調音速度計算部201により、音声区間において、2次元磁気センサシステムを用いて計測した調音パラメータの速度(調音速度)を計算する(ステップS201、S202)。
この調音速度の波形例を図11の最下段の波形(細線の波形)に示す。
この調音速度を算出する場合に、時刻tにおける調音速度は、調音パラメータをxt,i(i=1,・・・,12:唇や舌などの水平および垂直位置)として、RMS距離dx
dx=sqrt(Σ(xt,i−xt−1,i)×(xt,i−xt−1,i)/12)、
が用いられる。ここで、sqrtは根号、調音速度の単位はmmである。
そして、調音速度計算部201は、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを計算する(ステップS202)。
そして、すべての時刻tにおいて、
「dx<=t×avedx、かつdxk+1>t×avedx」となるkを求め、最終的に時刻tにおけるパラメータを、線型補間した、
((dxk+1−t×avedx)×p+(t×avedx−dx)×pk+1)/(dxk+1−dx)、
を算出する。
ここでpは、時刻kにおける、LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、あるいは周波数帯域毎の有声強度であり、LSP係数は、LSP係数変換部202により算出され(ステップS203)、基本周波数は、基本周波数変換部203により算出され(ステップS204)、位相等化パルス音源フィルタ係数は位相等化パルス音源フィルタ変換部204により算出される(ステップS205)。また、白色雑音ゲインは、白色雑音ゲイン変換部205により算出され(ステップS206)、周波数帯域毎の有声強度は、周波数帯域毎の有声強度変換部206により算出される。LSP係数変換部202により算出される(ステップS207)、
これにより、人間が一定の調音速度で発話した場合の発話スタイルを有する音声を生成することが可能となる(これを、調音速度等化音声と呼ぶ)。
この調音速度等化音声の例を、図11において調音速度等化音声(上から2番目の波形)として示している。
また、これとは逆に、調音速度の逆数の平均毎にパラメータを並べることにより、人間にとっては発話困難な、調音速度の初速が速く、だんだんと遅くなる発話スタイルを有する音声を生成できる。これらの調音速度の変換法は一例であり、様々な手法が考えられる。
また、図4は、音声合成部300の構成例を示す図である。
図4に示すように、音声合成部300は、位相等化パルス音源と白色雑音の音源を生成する駆動音源生成部301と、LSP係数からLPC係数を算出するLPC係数計算部302とを有している。また、位相等化パルス音源と白色雑音とLPC係数とを基に、最終的な音声信号304を合成する畳み込み演算部303を有している。
この音声合成部300における処理の流れを図7に示す。以下、図7を参照して、音声合成部その処理の流れについて説明する。
音声合成部300では、音声変換部200において調音速度を基に線形補間されたパラメータを取得する(ステップS301)。
また、このステップS301において、駆動音源生成部301により、音声変換部200において調音速度を基に線形補間された基本周波数に、式(1)を適用することで、位相等化パルス音源フィルタ係数を求め、位相等化パルス音源を作成する。
また、白色雑音に、音声変換部200において調音速度を基に補間された白色雑音のゲインを乗じる。そして、音声変換部200において調音速度を基に補間された有声強度に基づき、ある閾値より大きい帯域を有声帯域、小さい帯域を無声帯域として、有声帯域では位相等化パルス音源、無声帯域では白色雑音を混合した駆動音源を作成する。
そして、最終的には、LPC係数計算部302により、LSP係数変換部202により算出されたLSP係数をLPC係数に変換し、畳み込み演算部303により、LPC係数計算部302により変換されたLPC係数と駆動音源の出力信号とを畳み込むことで音声を合成する(ステップS302)。
以上、本発明の音声分析合成装置の構成と処理の流れについて説明したが、具体的な例として、音声分析部100、音声変換部200、および音声合成部300において、処理される信号の波形の例を、図8〜図11に示す。
図8は、発声資料「腕前」の一部の波形例を示している。図8(A)は、マイクから入力される音声信号を16kHzでサンプリングした音声信号、図8(B)は、基本周波数を用いて、ピッチ周期に応じたパルス系列を持つ信号であるピッチ波形を示している。
また、図8(C)は、線型予測分析(LPC)を行い、LPC逆フィルタにより求めたLPC予測残差信号resの波形を示し、図8(D)は、音声区間内で、フレーム番号t(フレーム周期4ms)、時刻k(窓長30ms)において、ピッチ波形とLPC予測残差信号を基に生成されたピッチマークを示している。 また、図8(E)は、調音パラメータの速度(調音速度)から算出した平均調音速度avedxを基に合成した再合成波形を示している。
図8に示すように、従来手法であるL PC予測残差信号の絶対値の閾値処理を用いた場合、図8(C)の波形の点線の丸で囲まれた部分をピッチマークと誤認してしまう可能性があるが、本手法を用いた場合、このような誤りは少ない。
また、図9は、発声資料「腕前」の白色雑音のゲインの例を示す図である。
図9(A)は、ピッチ同期分析適用なし、図9(B)は、ピッチ同期分析適用あり、の場合を示す。図9に示すように、ピッチ同期分析を行なうことにより、基本波の影響を受けない、なめらかに変化するゲインを得ることができる。
また、図10は、駆動音源の例を示す図であり、図10(A)は、位相等化パルス音源、図10(B)は、ゲインを加えた白色雑音.図10(C)は、周波数帯域毎の有声/無声判定に基づいて、図10(A)と図10(B)とを混合した信号を示している。
また、図11は、本発明における調音速度等化音声の例を示す図である。発声は「青空に入道雲が浮かんでいます」の例である。
図11に示す信号波形は、上から順番に、原音声、調音速度等化音声、基本周波数、調音位置(下歯茎、水平方向)、調音位置(上唇、水平方向)、調音位置(下唇、水平方向)、調音位置(舌1、水平方向)、調音位置(舌2、水平方向)、調音位置(舌3、水平方向)、
調音位置(下歯茎、垂直方向)、調音位置(上唇、垂直方向)、調音位置(下唇、垂直方向)、調音位置(舌1、垂直方向)、調音位置(舌2、垂直方向)、調音位置(舌3、垂直方向)、調音速度を、それぞれ示している。なお、基本周波数、調音位置および調音速度における細線は原音声、太線は調音速度等化音声である。
図11に示すように、調音速度等化音声における調音速度は、音声区間で一定に保たれており、本発明の手法の有効性を確認できる。
また受聴試験の結果、再合成された音声信号と、原音声信号の間の知覚的な歪みはほとんど感じられないことを確認している。
なお、上記の説明においては、図7のステップS302において、LPC係数計算部302により、LSP係数変換部202により算出されたLSP係数をLPC係数に変換し、畳み込み演算部303により、LPC係数計算部302により変換されたLPC係数と駆動音源の出力信号とを畳み込むことで音声を合成した。しかし、これに限られるものではなく、畳み込み演算部303は、LSP係数変換部202により算出されたLSP係数からLSP合成フィルタを生成し、生成したLSP合成フィルタと駆動音源の出力信号とを畳み込むことで音声を合成してもよい。
以上、本発明の音声分析合成装置について説明したが、図1に示した音声分析合成装置1は、内部にコンピュータシステムを有している。そして、データ入力部12、音声分析部100、音声変換部200、音声合成部300等における処理は、CPUがプログラムを読み出して実行することにより、その機能が実現されるものである(もちろん、専用のハードウェアにより実現されるものであってもよい)。
そして、上記プログラムは、例えばハードディスクやROM等の、コンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。
すなわち、データ入力部12、音声分析部100、音声変換部200、音声合成部300等における、各処理は、CPU等の中央演算処理装置が上記プログラムを読み出して、情報の加工、演算処理を実行することにより、実現されるものである。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、図1に示す音声分析合成装置1には、周辺機器として入力装置、表示装置等(いずれも表示せず)が接続されているものとする。ここで、入力装置としては、キーボード、マウス等の入力デバイスのことをいう。表示装置とは、CRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
以上、本発明の実施の形態について説明したが、本発明の音声分析合成装置は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
本発明の実施の形態に係わる音声分析合成装置の構成を示す図である。 音声分析部の構成例を示す図である。 音声変換部の構成例を示す図である。 音声合成部の構成例を示す図である。 音声分析部における処理の流れを示す図である。 音声変換部における処理の流れを示す図である。 音声合成部における処理の流れを示す図である。 発声資料「腕前」の一部の波形例を示す図である。 発声資料「腕前」の白色雑音のゲインの例を示す図である。 駆動音源の例を示す図である。 本発明における調音速度等化音声の例を示す図である。
符号の説明
1・・・音声分析合成装置、2・・・マイク、3・・・2次元磁気センサシステム、11・・・主制御部、12・・・データ入力部、13・・・インタフェース部、14・・・音声出力部、100・・・音声分析部、101・・・基本周波数計算部、102・・・パルス系列生成部、103・・・LPC係数計算部、104・・・LPC残差計算部、105・・・LSP係数計算部、106・・・ピッチマーク計算部、107・・・位相等化音声計算部、108・・・位相等化パルス音源フィルタ計算部、109・・・有声強度計算部、110・・・白色雑音ゲイン計算部、200・・・音声変換部、201・・・調音速度計算部、202・・・LSP係数変換部、203・・・基本周波数変換部、204・・・位相等化パルス音源フィルタ変換部、205・・・白色雑音ゲイン変換部、206・・・有声強度変換部、300・・・音声合成部、301・・・駆動音源生成部、302・・・LPC係数計算部、303・・・畳み込み演算部

Claims (8)

  1. 同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置であって、
    前記音声分析部は、
    前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算部と、
    前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成部と、
    前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算部と、
    前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算部と、
    前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算部と、
    前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算部と、
    前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算部と、
    前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算部と、
    前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算部と、
    前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算部と、
    を備え、
    前記音声変換部は、
    前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算部と、
    前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換部と、
    前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換部と、
    前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換部と、
    前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換部と、
    前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換部と、
    を備え、
    前記音声合成部は、
    前記基本周波数変換部において変換された基本周波数と、前記位相等化パルス音源フィルタ変換部により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換部において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成部と、
    前記LSP係数変換部により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算部と、
    を備え
    前記有声強度計算部が前記音声強度を算出する場合、前記白色雑音ゲイン計算部が前記白色雑音ゲインを算出する場合、および、前記駆動音源生成部が前記位相等化パルス音源を生成する場合、分析窓長を2ピッチ周期分として算出または生成する、
    ことを特徴とする音声分析合成装置。
  2. 前記音声合成部が、
    前記LSP係数変換部により変換されたLSP係数をLPC係数に変換するLPC係数計算部
    を有し、
    前記畳み込み演算部が、
    前記LPC係数計算部において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、
    ことを特徴とする請求項1に記載の音声分析合成装置。
  3. 前記音声変換部のLSP係数変換部と基本周波数変換部と位相等化パルス音源フィルタ変換部と白色雑音ゲイン変換部と有声強度変換部とは、それぞれ、
    時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用し、
    「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、
    ここで、sqrtは根号、調音速度の単位はmm」、
    また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出し、
    さらに、すべての時刻tにおいて、
    「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、
    時刻tにおけるパラメータを、次の式により線型補間すること、
    「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源のフィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、
    を特徴とする請求項1または請求項2に記載の音声分析合成装置。
  4. 同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置における音声分析合成方法であって、
    前記音声分析部により、
    前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算手順と、
    前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成手順と、
    前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算手順と、
    前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算手順と、
    前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算手順と、
    前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算手順と、
    前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算手順と、
    前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算手順と、
    前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算手順と、
    前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算手順と、
    が行われ、
    前記音声変換部により、
    前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算手順と、
    前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換手順と、
    前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換手順と、
    前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換手順と、
    前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換手順と、
    前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換手順と、
    を行われ、
    前記音声合成部により、
    前記基本周波数変換手順において変換された基本周波数と、前記位相等化パルス音源フィルタ変換手順により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換手順において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成手順と、
    前記LSP係数変換手順により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算手順と、
    が行われ
    前記有声強度計算手順において前記音声強度が算出される場合、前記白色雑音ゲイン計算手順において前記白色雑音ゲインが算出される場合、および、前記駆動音源生成手順において前記位相等化パルス音源が生成される場合、分析窓長を2ピッチ周期分として算出または生成される、
    ることを特徴とする音声分析合成方法。
  5. 前記音声合成部により、
    前記LSP係数変換手順により変換されたLSP係数をLPC係数に変換するLPC係数計算手順
    が行われ、
    前記畳み込み演算手順で、
    前記LPC係数計算手順において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、
    ことを特徴とする請求項4に記載の音声分析合成方法。
  6. 前記音声変換部によるLSP係数変換手順と基本周波数変換手順と位相等化パルス音源フィルタ変換手順と白色雑音ゲイン変換手順と有声強度変換手順とで、それぞれ、
    時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用する手順と、
    「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、
    ここで、sqrtは根号、調音速度の単位はmm」、
    また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出する手順と、
    さらに、すべての時刻tにおいて、
    「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、
    時刻tにおけるパラメータを、次の式により線型補間する手順と、
    「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、
    が行われることを特徴とする請求項4または請求項5に記載の音声分析合成方法。
  7. 音声と調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置内のコンピュータに、
    請求項4から請求項6のいずれかに記載の手順を実行させるためのコンピュータプログラム。
  8. 請求項7に記載のコンピュータプログラムを格納すること特徴とするコンピュータ読み取り可能な記録媒体。
JP2008092985A 2008-03-31 2008-03-31 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 Expired - Fee Related JP4999757B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008092985A JP4999757B2 (ja) 2008-03-31 2008-03-31 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008092985A JP4999757B2 (ja) 2008-03-31 2008-03-31 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2009244723A JP2009244723A (ja) 2009-10-22
JP4999757B2 true JP4999757B2 (ja) 2012-08-15

Family

ID=41306653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008092985A Expired - Fee Related JP4999757B2 (ja) 2008-03-31 2008-03-31 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP4999757B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5325130B2 (ja) * 2010-01-25 2013-10-23 日本電信電話株式会社 Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
KR102357291B1 (ko) 2014-01-15 2022-02-03 삼성전자주식회사 선형 예측 부호화 계수를 양자화하기 위한 가중치 함수 결정 장치 및 방법
CN105788601B (zh) * 2014-12-25 2019-08-30 联芯科技有限公司 VoLTE的抖动隐藏方法和装置
CN108281150B (zh) * 2018-01-29 2020-11-17 上海泰亿格康复医疗科技股份有限公司 一种基于微分声门波模型的语音变调变嗓音方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2583883B2 (ja) * 1987-03-31 1997-02-19 博也 藤崎 音声分析装置および音声合成装置
JPH01232400A (ja) * 1988-03-11 1989-09-18 Fujitsu Ltd 音声符号化伝送装置
JPH01233835A (ja) * 1988-03-14 1989-09-19 Mitsubishi Electric Corp 音声時間軸圧縮符号化装置
JPH0782360B2 (ja) * 1989-10-02 1995-09-06 日本電信電話株式会社 音声分析合成方法
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JP2006243215A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2009244723A (ja) 2009-10-22

Similar Documents

Publication Publication Date Title
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
Erro et al. Voice conversion based on weighted frequency warping
US8719030B2 (en) System and method for speech synthesis
KR20170107283A (ko) 자연어 음성인식의 성능향상을 위한 데이터 증강방법
Erro et al. Weighted frequency warping for voice conversion.
US8280724B2 (en) Speech synthesis using complex spectral modeling
US8370153B2 (en) Speech analyzer and speech analysis method
CN104934029A (zh) 基于基音同步频谱参数的语音识别系统和方法
Degottex et al. Phase minimization for glottal model estimation
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP4999757B2 (ja) 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
US7627468B2 (en) Apparatus and method for extracting syllabic nuclei
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
Jayasankar et al. Automatic continuous speech segmentation to improve Tamil text-to-speech synthesis
US7822599B2 (en) Method for synthesizing speech
Nataraj et al. Improving the consistency of vocal tract shape estimation
Lehana et al. Speech synthesis in Indian languages
JP2005189483A (ja) 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
Lehana et al. Harmonic plus noise model based speech synthesis in Hindi and pitch modification
JPH07261798A (ja) 音声分析合成装置
Lehana et al. Improving quality of speech synthesis in Indian Languages
Vasilopoulos et al. Implementation and evaluation of a Greek Text to Speech System based on an Harmonic plus Noise Model
Shukla Improving intelligibility of synthesized speech in noise with emphasized prosody.
JPH0981188A (ja) 音声分析システム及び音声波形のピッチの時間的基準位置付与方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120515

R151 Written notification of patent or utility model registration

Ref document number: 4999757

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees