JP4999757B2 - 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 - Google Patents
音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 Download PDFInfo
- Publication number
- JP4999757B2 JP4999757B2 JP2008092985A JP2008092985A JP4999757B2 JP 4999757 B2 JP4999757 B2 JP 4999757B2 JP 2008092985 A JP2008092985 A JP 2008092985A JP 2008092985 A JP2008092985 A JP 2008092985A JP 4999757 B2 JP4999757 B2 JP 4999757B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- conversion
- voice
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Tachibana,M.,Yamagishi,J.,Masuko,T.,and Kobayashi,T.,"Speech synthesis with various emotional expressions and speaking styles by style interpolation and morphing,"IEICE Trans.Information and Systems,E88-D, 11, pp.2484-2491(2005). Moulines,E., and Charpentier,F.,"Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones,"Speech Communication,9,pp.453-467(1990). Miyoshi,Y.,Yamato,K.,Mizoguchi.R.,Yanagida,M.,and Kakusho,O.,"Analysis of speech signals of short pitch period by a sample-selective linear prediction,"IEEE Trans. Signal Processing, 35, 9, pp. 1233-1240(1987).. McCree, A.V.,and Barnwell,T.P.,"A mixed excitation LPC vocoder model for low bit rate speech coding," IEEE Trans. Speech and Audio Processing,3,4, pp. 242-249(1995).
図1に示す本発明の音声分析合成装置は、音声分析合成装置1に、マイク(マイクロフォン)2および、2次元磁気センサシステム3を接続して構成される。
図2に示す音声分析部100内の基本周波数計算部101は、音声信号のパワーにより、音声区間の検出を行ない、基本周波数を抽出する処理を行なう。
r(t、j)=Σk|res(t,k)|×|ex(t,k+j)|、
図3に示すように、音声変換部200は、調音パラメータの速度(調音速度)を計算する調音速度計算部201を有している。また、調音速度を基に、音声分析部100で求めたそれぞれのパラータを変換(線形補間)するLSP係数変換部202、基本周波数変換部203、位相等化パルス音源フィルタ変換部204、白色雑音ゲイン変換部205、および周波数帯域毎の有声強度変換部206とで構成されている。なお、線形補間については、後述される。
この調音速度の波形例を図11の最下段の波形(細線の波形)に示す。
dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/12)、
が用いられる。ここで、sqrtは根号、調音速度の単位はmmである。
「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、最終的に時刻tにおけるパラメータを、線型補間した、
((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、
を算出する。
図4に示すように、音声合成部300は、位相等化パルス音源と白色雑音の音源を生成する駆動音源生成部301と、LSP係数からLPC係数を算出するLPC係数計算部302とを有している。また、位相等化パルス音源と白色雑音とLPC係数とを基に、最終的な音声信号304を合成する畳み込み演算部303を有している。
図9(A)は、ピッチ同期分析適用なし、図9(B)は、ピッチ同期分析適用あり、の場合を示す。図9に示すように、ピッチ同期分析を行なうことにより、基本波の影響を受けない、なめらかに変化するゲインを得ることができる。
調音位置(下歯茎、垂直方向)、調音位置(上唇、垂直方向)、調音位置(下唇、垂直方向)、調音位置(舌1、垂直方向)、調音位置(舌2、垂直方向)、調音位置(舌3、垂直方向)、調音速度を、それぞれ示している。なお、基本周波数、調音位置および調音速度における細線は原音声、太線は調音速度等化音声である。
Claims (8)
- 同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置であって、
前記音声分析部は、
前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算部と、
前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成部と、
前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算部と、
前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算部と、
前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算部と、
前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算部と、
前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算部と、
前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算部と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算部と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算部と、
を備え、
前記音声変換部は、
前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算部と、
前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換部と、
前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換部と、
前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換部と、
前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換部と、
前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換部と、
を備え、
前記音声合成部は、
前記基本周波数変換部において変換された基本周波数と、前記位相等化パルス音源フィルタ変換部により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換部において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成部と、
前記LSP係数変換部により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算部と、
を備え、
前記有声強度計算部が前記音声強度を算出する場合、前記白色雑音ゲイン計算部が前記白色雑音ゲインを算出する場合、および、前記駆動音源生成部が前記位相等化パルス音源を生成する場合、分析窓長を2ピッチ周期分として算出または生成する、
ことを特徴とする音声分析合成装置。 - 前記音声合成部が、
前記LSP係数変換部により変換されたLSP係数をLPC係数に変換するLPC係数計算部
を有し、
前記畳み込み演算部が、
前記LPC係数計算部において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、
ことを特徴とする請求項1に記載の音声分析合成装置。 - 前記音声変換部のLSP係数変換部と基本周波数変換部と位相等化パルス音源フィルタ変換部と白色雑音ゲイン変換部と有声強度変換部とは、それぞれ、
時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用し、
「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、
ここで、sqrtは根号、調音速度の単位はmm」、
また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出し、
さらに、すべての時刻tにおいて、
「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、
時刻tにおけるパラメータを、次の式により線型補間すること、
「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源のフィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、
を特徴とする請求項1または請求項2に記載の音声分析合成装置。 - 同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置における音声分析合成方法であって、
前記音声分析部により、
前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算手順と、
前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成手順と、
前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算手順と、
前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算手順と、
前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算手順と、
前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算手順と、
前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算手順と、
前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算手順と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算手順と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算手順と、
が行われ、
前記音声変換部により、
前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算手順と、
前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換手順と、
前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換手順と、
前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換手順と、
前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換手順と、
前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換手順と、
を行われ、
前記音声合成部により、
前記基本周波数変換手順において変換された基本周波数と、前記位相等化パルス音源フィルタ変換手順により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換手順において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成手順と、
前記LSP係数変換手順により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算手順と、
が行われ、
前記有声強度計算手順において前記音声強度が算出される場合、前記白色雑音ゲイン計算手順において前記白色雑音ゲインが算出される場合、および、前記駆動音源生成手順において前記位相等化パルス音源が生成される場合、分析窓長を2ピッチ周期分として算出または生成される、
ることを特徴とする音声分析合成方法。 - 前記音声合成部により、
前記LSP係数変換手順により変換されたLSP係数をLPC係数に変換するLPC係数計算手順
が行われ、
前記畳み込み演算手順で、
前記LPC係数計算手順において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、
ことを特徴とする請求項4に記載の音声分析合成方法。 - 前記音声変換部によるLSP係数変換手順と基本周波数変換手順と位相等化パルス音源フィルタ変換手順と白色雑音ゲイン変換手順と有声強度変換手順とで、それぞれ、
時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用する手順と、
「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、
ここで、sqrtは根号、調音速度の単位はmm」、
また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出する手順と、
さらに、すべての時刻tにおいて、
「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、
時刻tにおけるパラメータを、次の式により線型補間する手順と、
「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、
が行われることを特徴とする請求項4または請求項5に記載の音声分析合成方法。 - 音声と調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置内のコンピュータに、
請求項4から請求項6のいずれかに記載の手順を実行させるためのコンピュータプログラム。 - 請求項7に記載のコンピュータプログラムを格納すること特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008092985A JP4999757B2 (ja) | 2008-03-31 | 2008-03-31 | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008092985A JP4999757B2 (ja) | 2008-03-31 | 2008-03-31 | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009244723A JP2009244723A (ja) | 2009-10-22 |
JP4999757B2 true JP4999757B2 (ja) | 2012-08-15 |
Family
ID=41306653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008092985A Expired - Fee Related JP4999757B2 (ja) | 2008-03-31 | 2008-03-31 | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4999757B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5325130B2 (ja) * | 2010-01-25 | 2013-10-23 | 日本電信電話株式会社 | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
KR102357291B1 (ko) | 2014-01-15 | 2022-02-03 | 삼성전자주식회사 | 선형 예측 부호화 계수를 양자화하기 위한 가중치 함수 결정 장치 및 방법 |
CN105788601B (zh) * | 2014-12-25 | 2019-08-30 | 联芯科技有限公司 | VoLTE的抖动隐藏方法和装置 |
CN108281150B (zh) * | 2018-01-29 | 2020-11-17 | 上海泰亿格康复医疗科技股份有限公司 | 一种基于微分声门波模型的语音变调变嗓音方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2583883B2 (ja) * | 1987-03-31 | 1997-02-19 | 博也 藤崎 | 音声分析装置および音声合成装置 |
JPH01232400A (ja) * | 1988-03-11 | 1989-09-18 | Fujitsu Ltd | 音声符号化伝送装置 |
JPH01233835A (ja) * | 1988-03-14 | 1989-09-19 | Mitsubishi Electric Corp | 音声時間軸圧縮符号化装置 |
JPH0782360B2 (ja) * | 1989-10-02 | 1995-09-06 | 日本電信電話株式会社 | 音声分析合成方法 |
JP3747492B2 (ja) * | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
JP2006243215A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム |
-
2008
- 2008-03-31 JP JP2008092985A patent/JP4999757B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009244723A (ja) | 2009-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
Erro et al. | Voice conversion based on weighted frequency warping | |
US8719030B2 (en) | System and method for speech synthesis | |
KR20170107283A (ko) | 자연어 음성인식의 성능향상을 위한 데이터 증강방법 | |
Erro et al. | Weighted frequency warping for voice conversion. | |
US8280724B2 (en) | Speech synthesis using complex spectral modeling | |
US8370153B2 (en) | Speech analyzer and speech analysis method | |
CN104934029A (zh) | 基于基音同步频谱参数的语音识别系统和方法 | |
Degottex et al. | Phase minimization for glottal model estimation | |
US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
JP4999757B2 (ja) | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 | |
US7627468B2 (en) | Apparatus and method for extracting syllabic nuclei | |
JP4469986B2 (ja) | 音響信号分析方法および音響信号合成方法 | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
Jayasankar et al. | Automatic continuous speech segmentation to improve Tamil text-to-speech synthesis | |
US7822599B2 (en) | Method for synthesizing speech | |
Nataraj et al. | Improving the consistency of vocal tract shape estimation | |
Lehana et al. | Speech synthesis in Indian languages | |
JP2005189483A (ja) | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ | |
Lehana et al. | Harmonic plus noise model based speech synthesis in Hindi and pitch modification | |
JPH07261798A (ja) | 音声分析合成装置 | |
Lehana et al. | Improving quality of speech synthesis in Indian Languages | |
Vasilopoulos et al. | Implementation and evaluation of a Greek Text to Speech System based on an Harmonic plus Noise Model | |
Shukla | Improving intelligibility of synthesized speech in noise with emphasized prosody. | |
JPH0981188A (ja) | 音声分析システム及び音声波形のピッチの時間的基準位置付与方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120508 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120515 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4999757 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150525 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |