JP5961950B2 - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP5961950B2 JP5961950B2 JP2011191665A JP2011191665A JP5961950B2 JP 5961950 B2 JP5961950 B2 JP 5961950B2 JP 2011191665 A JP2011191665 A JP 2011191665A JP 2011191665 A JP2011191665 A JP 2011191665A JP 5961950 B2 JP5961950 B2 JP 5961950B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- feature amount
- voice
- phoneme
- amount information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Description
図1は、本発明の第1実施形態に係る音声処理装置100のブロック図である。音声処理装置100は、所望の歌唱音を合成する音声合成装置(歌唱合成装置)であり、図1に示すように、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。
図2は、関数特定部22のブロック図である。図2に示すように、関数特定部22は、特徴量取得部32と第1分布生成部342と第2分布生成部344と関数生成部36とを含んで構成される。図3に示すように、特徴量取得部32は、発声者USが発声した音素(音素データPS)の単位区間TF毎の特徴量情報Xと、発声者UTが発声した音素(音声信号VT)の単位区間TF毎の特徴量情報Yとを生成する。第1に、特徴量取得部32は、素片群GSの複数の素片データDSのうちQ個の音素(monophone)に対応する各音素データPSについて単位区間TF(フレーム)毎に特徴量情報Xを生成する。第2に、特徴量取得部32は、音声信号VTを時間軸上で音素毎に区分して各音素の波形を示す時系列データ(以下「音素データPT」という)を抽出し、各音素データPTについて単位区間TF毎に特徴量情報Yを生成する。音声信号VTを音素毎に区分する処理には公知の技術が任意に採用される。なお、素片データDSとは別個に収録された発声者USの音声信号から単位区間TF毎に特徴量情報Xを生成する構成も採用され得る。
図1の声質変換部24は、関数特定部22が生成した各変換関数Fq(X)を素片データDSに適用して素片データDTを生成する処理を、素片群GS内の各素片データDSについて反復することで素片群GTを生成する。各音声素片の素片データDSから生成される素片データDTの音声は、当該音声素片を発声者UTに類似(理想的には合致)する声質で発声した音声に相当する。図6は、声質変換部24のブロック図である。図6に示すように、声質変換部24は、特徴量取得部42と変換処理部44と素片データ生成部46とを含んで構成される。
図7は、音声合成部26のブロック図である。図7の楽譜情報(スコアデータ)SCは、合成対象となる各指定音の音符(音高,継続長)と歌詞(発音文字)とを時系列に指定する情報であり、利用者からの指示(各指定音の追加や編集の指示)に応じて作成されて記憶装置14に格納される。図7に示すように、音声合成部26は、素片選択部52と合成処理部54とを含んで構成される。
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図10は、第3実施形態における声質変換部24のブロック図である。図10に示すように、第3実施形態の声質変換部24は、第1実施形態の声質変換部24に係数補正部48を追加した構成である。係数補正部48は、変換処理部44が単位区間TF毎に生成した特徴量情報XTの係数値LT[1]〜LT[K]を補正する。
包絡線ENV_Tを表現する係数値(線スペクトル周波数)LT[1]〜LT[K]は、0からπまでの範囲R内の数値(0<LT[1]<LT[2]<…<LT[K]<π)である必要がある。しかし、声質変換部24による処理(変換関数Fq(X)による変換)に起因して係数値LT[1]〜LT[K]が範囲Rの外側の数値となる可能性がある。そこで、第1補正部481は、係数値LT[1]〜LT[K]を範囲R内の数値に補正する。具体的には、係数値LT[k]がゼロを下回る場合(LT[k]<0)には、係数値LT[k]を、周波数軸上で正側に隣合う係数値LT[k+1]の数値に変更する(LT[k]=LT[k+1])。他方、係数値LT[k]がπを上回る場合(LT[k]>π)には、係数値LT[k]を、周波数軸上で負側に隣合う係数値LT[k-1]の数値に変更する(LT[k]=LT[k-1])。したがって、補正後の係数値LT[1]〜LT[K]は範囲R内に分布する。
相互に隣合う2個の係数値LT[k]および係数値LT[k-1]の差分ΔL(ΔL=LT[k]−LT[k-1])が過度に小さい場合(すなわち線スペクトル同士が過度に接近する場合)、包絡線ENV_Tのピークの数値が異常に大きい数値となり、音声信号VSYNの再生音が聴感的に不自然な印象の音響となる可能性がある。そこで、第2補正部482は、相互に隣合う2個の係数値LT[k-1]および係数値LT[k]の差分ΔLが所定値Δminを下回る場合に両者間の差異を拡大する。
図13は、変換関数Fq(X)による変換前の係数値L[k]の次数k毎の時系列(軌跡)である。図13に示すように、変換関数Fq(X)による変換前の各係数値L[k]は適度に分散する(すなわち時間的に適度に変動する)から、相互に隣合う係数値L[k]と係数値L[k-1]とが適度に接近する期間が発生する。したがって、図13に示すように、変換前の特徴量情報Xで表現される包絡線ENVには適切な高さのピークが発生する。
図15は、特定の音素の実際の収録音における特徴量情報Xと特徴量情報Yとの相関を、便宜的に各情報のひとつの次元について図示した散布図である。前述の各形態のように数式(9)の係数aqを数式(4A)に適用した場合、特徴量情報Xと特徴量情報Yとの間には直線的な相関(分布r1)が観測される。他方、図15に分布r0で示すように、実際の音声から観測される特徴量情報Xおよび特徴量情報Yは、数式(9)の係数aqを適用した場合と比較して広範囲に分布する。
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
素片データD(DS,DT)の形式は任意である。例えば、素片データDが音声の周波数スペクトルを示す構成や、素片データDが特徴量情報(X,Y,XT)を示す構成も採用され得る。素片データDSが周波数スペクトルを示す構成では、図3の周波数分析(S11,S12)が省略される。また、素片データDSが特徴量情報(X,Y,XT)を示す構成では、特徴量取得部32や特徴量取得部42は素片データDを取得する要素として機能し、図4の処理(周波数分析(S11,S12)や包絡線特定(S13,S14)等)は省略される。音声合成部26(合成処理部54)による音声信号VSYNの生成の方法は、素片データD(DS,DT)の形式に応じて適宜に選定される。
以上の各形態では、複数の素片データDTで構成される素片群GTを音声合成の実行前に予め生成したが、音声合成部26による音声合成に並行して声質変換部24が素片データDTを逐次的に生成する構成も採用され得る。すなわち、声質変換部24は、楽譜情報SCで指定音の歌詞が指定されるたびに、当該歌詞に対応する素片データDSを記憶装置14から取得して変換関数Fq(X)を適用することで素片データDTを生成する。音声合成部26は、声質変換部24が生成する素片データDTから音声信号VSYNを順次に生成する。以上の構成によれば、素片群GTを記憶装置14に格納する必要がないから、記憶装置14に必要な容量が削減されるという利点がある。
以上の各形態では、関数特定部22と声質変換部24と音声合成部26とを含む音声処理装置100を例示したが、以上の各要素は複数の装置に個別に搭載され得る。例えば、素片群GSおよび音声信号VTを記憶する記憶装置14と関数特定部22とを具備する音声処理装置(声質変換部24や音声合成部26を省略した構成)は、別装置の声質変換部24が使用する変換関数Fq(X)を特定する装置(変換関数生成装置)として利用される。また、素片群GSを記憶する記憶装置14と声質変換部24とを具備する音声処理装置(音声合成部26を省略した構成)は、別装置の音声合成部26が音声合成に使用する素片群GTを素片群GSに対する変換関数Fq(X)の適用で生成する装置(素片データ生成装置)として利用される。
以上の各形態では歌唱音の合成を例示したが、歌唱音以外の発話音(例えば会話音)を合成する場合にも、以上の各形態と同様に本発明を同様に適用することが可能である。
Claims (6)
- 第1発声者の音声の単位区間毎の特徴量情報の分布を、相異なる音素に対応する複数の第1確率分布の混合確率分布で近似する第1分布生成手段と、
第2発声者の音声の単位区間毎の特徴量情報の分布を、相異なる音素に対応する複数の第2確率分布の混合確率分布で近似する第2分布生成手段と、
前記第1発声者の音声の特徴量情報を前記第2発声者の音声の特徴量情報に変換する変換関数を音素毎に生成する手段であって、複数の音素の各々に対応する変換関数を、前記複数の第1確率分布のうち当該音素に対応する第1確率分布の平均および自己共分散と、前記複数の第2確率分布のうち当該音素に対応する第2確率分布の平均および自己共分散とから生成する関数生成手段と
を具備する音声処理装置。 - 第1発声者の音声を示す第1素片データを音声素片毎に記憶する記憶手段と、
前記各音声素片に対応する第1素片データが示す音声の特徴量情報に対して、前記関数生成手段が生成した複数の変換関数のうち当該音声素片を構成する音素に対応する変換関数を適用することで、第2発声者の音声の第2素片データを順次に生成する声質変換手段と
を具備する請求項1から請求項3の何れかの音声処理装置。 - 前記声質変換手段は、第1素片データが第1音素と第2音素とを示す場合に、前記第1音素と前記第2音素との境界を含む補間区間内において前記第1音素の変換関数から前記第2音素の変換関数に段階的に変化するように、当該補間区間内の各単位区間の特徴量情報に適用される変換関数を補間する
請求項4の音声処理装置。 - 前記声質変換手段は、
前記各第1素片データが示す音声の周波数領域の包絡線における各ピークの高さを各々の粗密で表現する線スペクトルの周波数を示す複数の係数値を含む特徴量情報を取得する特徴量取得手段と、
前記特徴量取得手段が取得した特徴量情報に前記変換関数を適用する変換処理手段と、
前記変換処理手段による変換後の特徴量情報の各係数値を補正する手段であって、次数毎の前記係数値の時系列における分散が増加するように前記各係数値を補正する手段を含む係数補正手段と、
前記係数補正手段による補正後の特徴量情報に対応する前記第2素片データを生成する素片データ生成手段とを含む
請求項4または請求項5の音声処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011191665A JP5961950B2 (ja) | 2010-09-15 | 2011-09-02 | 音声処理装置 |
EP20110181174 EP2431967B1 (en) | 2010-09-15 | 2011-09-14 | Voice conversion device and method |
US13/232,950 US9343060B2 (en) | 2010-09-15 | 2011-09-14 | Voice processing using conversion function based on respective statistics of a first and a second probability distribution |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010206562 | 2010-09-15 | ||
JP2010206562 | 2010-09-15 | ||
JP2011191665A JP5961950B2 (ja) | 2010-09-15 | 2011-09-02 | 音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012083722A JP2012083722A (ja) | 2012-04-26 |
JP5961950B2 true JP5961950B2 (ja) | 2016-08-03 |
Family
ID=44946954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011191665A Expired - Fee Related JP5961950B2 (ja) | 2010-09-15 | 2011-09-02 | 音声処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9343060B2 (ja) |
EP (1) | EP2431967B1 (ja) |
JP (1) | JP5961950B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1968443A4 (en) | 2005-12-28 | 2011-09-28 | Nirinjan Bikko | BIORETRACTION DEVICE FOR BREATHING |
US9779751B2 (en) | 2005-12-28 | 2017-10-03 | Breath Research, Inc. | Respiratory biofeedback devices, systems, and methods |
JP5846043B2 (ja) * | 2012-05-18 | 2016-01-20 | ヤマハ株式会社 | 音声処理装置 |
US9814438B2 (en) * | 2012-06-18 | 2017-11-14 | Breath Research, Inc. | Methods and apparatus for performing dynamic respiratory classification and tracking |
US10426426B2 (en) | 2012-06-18 | 2019-10-01 | Breathresearch, Inc. | Methods and apparatus for performing dynamic respiratory classification and tracking |
US9564119B2 (en) | 2012-10-12 | 2017-02-07 | Samsung Electronics Co., Ltd. | Voice converting apparatus and method for converting user voice thereof |
JP2014219607A (ja) * | 2013-05-09 | 2014-11-20 | ソニー株式会社 | 音楽信号処理装置および方法、並びに、プログラム |
JP6286946B2 (ja) * | 2013-08-29 | 2018-03-07 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6233103B2 (ja) * | 2014-03-05 | 2017-11-22 | 富士通株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
US10706867B1 (en) * | 2017-03-03 | 2020-07-07 | Oben, Inc. | Global frequency-warping transformation estimation for voice timbre approximation |
CN108398260B (zh) * | 2018-01-10 | 2021-10-01 | 浙江大学 | 基于混合概率方法的齿轮箱瞬时角速度的快速评估方法 |
US11854562B2 (en) * | 2019-05-14 | 2023-12-26 | International Business Machines Corporation | High-quality non-parallel many-to-many voice conversion |
US11430431B2 (en) * | 2020-02-06 | 2022-08-30 | Tencent America LLC | Learning singing from speech |
US20240212704A1 (en) * | 2021-09-22 | 2024-06-27 | Boe Technology Group Co., Ltd. | Audio adjusting method, device and apparatus, and storage medium |
CN115294958B (zh) * | 2022-06-28 | 2024-07-02 | 北京奕斯伟计算技术股份有限公司 | 用于语音合成的单元选择方法及装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2658954C2 (de) * | 1976-12-24 | 1979-04-12 | Deutsche Texaco Ag, 2000 Hamburg | Verfahren zur Unterdrückung von Störwellenzügen in seismischen Daten |
JP3632529B2 (ja) * | 1999-10-26 | 2005-03-23 | 日本電気株式会社 | 音声認識装置及び方法ならびに記録媒体 |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
JP4408596B2 (ja) * | 2001-08-30 | 2010-02-03 | シャープ株式会社 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
JP3815347B2 (ja) | 2002-02-27 | 2006-08-30 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
GB2406759B (en) * | 2003-10-02 | 2006-06-07 | Toshiba Res Europ Ltd | Signal decoding methods and apparatus |
JP4829477B2 (ja) * | 2004-03-18 | 2011-12-07 | 日本電気株式会社 | 声質変換装置および声質変換方法ならびに声質変換プログラム |
FR2868587A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme de conversion rapides d'un signal vocal |
FR2868586A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme ameliores de conversion d'un signal vocal |
CN101351841B (zh) * | 2005-12-02 | 2011-11-16 | 旭化成株式会社 | 音质转换系统 |
CN101004911B (zh) * | 2006-01-17 | 2012-06-27 | 纽昂斯通讯公司 | 用于生成频率弯曲函数及进行频率弯曲的方法和装置 |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
US7505950B2 (en) * | 2006-04-26 | 2009-03-17 | Nokia Corporation | Soft alignment based on a probability of time alignment |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
US8131550B2 (en) * | 2007-10-04 | 2012-03-06 | Nokia Corporation | Method, apparatus and computer program product for providing improved voice conversion |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
-
2011
- 2011-09-02 JP JP2011191665A patent/JP5961950B2/ja not_active Expired - Fee Related
- 2011-09-14 US US13/232,950 patent/US9343060B2/en not_active Expired - Fee Related
- 2011-09-14 EP EP20110181174 patent/EP2431967B1/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
EP2431967A2 (en) | 2012-03-21 |
JP2012083722A (ja) | 2012-04-26 |
US9343060B2 (en) | 2016-05-17 |
EP2431967B1 (en) | 2015-04-29 |
EP2431967A3 (en) | 2013-10-23 |
US20120065978A1 (en) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5961950B2 (ja) | 音声処理装置 | |
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
JP6496030B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
EP3065130B1 (en) | Voice synthesis | |
JP5846043B2 (ja) | 音声処理装置 | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
CN109416911B (zh) | 声音合成装置及声音合成方法 | |
US11646044B2 (en) | Sound processing method, sound processing apparatus, and recording medium | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP6234134B2 (ja) | 音声合成装置 | |
Lehana et al. | Transformation of short-term spectral envelope of speech signal using multivariate polynomial modeling | |
JP7106897B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP7200483B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP6191094B2 (ja) | 音声素片切出装置 | |
Espic Calderón | In search of the optimal acoustic features for statistical parametric speech synthesis | |
Tychtl et al. | Corpus-based database of residual excitations used for speech reconstruction from MFCCs. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150331 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160613 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5961950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |