JP6171711B2 - 音声解析装置および音声解析方法 - Google Patents
音声解析装置および音声解析方法 Download PDFInfo
- Publication number
- JP6171711B2 JP6171711B2 JP2013166311A JP2013166311A JP6171711B2 JP 6171711 B2 JP6171711 B2 JP 6171711B2 JP 2013166311 A JP2013166311 A JP 2013166311A JP 2013166311 A JP2013166311 A JP 2013166311A JP 6171711 B2 JP6171711 B2 JP 6171711B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- section
- unit
- music
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 66
- 239000011295 pitch Substances 0.000 claims description 308
- 238000003066 decision tree Methods 0.000 claims description 110
- 230000007704 transition Effects 0.000 claims description 95
- 238000012545 processing Methods 0.000 claims description 78
- 238000000605 extraction Methods 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 description 43
- 238000003786 synthesis reaction Methods 0.000 description 38
- 238000000034 method Methods 0.000 description 37
- 239000013256 coordination polymer Substances 0.000 description 26
- 238000003860 storage Methods 0.000 description 25
- 239000002131 composite material Substances 0.000 description 20
- 230000008569 process Effects 0.000 description 20
- 230000008901 benefit Effects 0.000 description 16
- 238000012937 correction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 239000011318 synthetic pitch Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- HOMTUYSWHVRGFX-QMDPOKHVSA-N [(2s,8s,8ar)-2-[(2r,3s)-2-hydroxy-5-methyl-3-[(2-methylpropan-2-yl)oxycarbonylamino]hex-4-enoyl]oxy-5-oxo-2,3,8,8a-tetrahydro-1h-indolizin-8-yl] 3-methoxybenzoate Chemical compound COC1=CC=CC(C(=O)O[C@@H]2[C@H]3C[C@@H](CN3C(=O)C=C2)OC(=O)[C@H](O)[C@@H](NC(=O)OC(C)(C)C)C=C(C)C)=C1 HOMTUYSWHVRGFX-QMDPOKHVSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/008—Means for controlling the transition from one tone waveform to another
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/02—Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/095—Inter-note articulation aspects, e.g. legato or staccato
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/325—Musical pitch modification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/325—Musical pitch modification
- G10H2210/331—Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Electrophonic Musical Instruments (AREA)
Description
図1は、本発明の第1実施形態に係る音声処理システムのブロック図である。音声処理システムは、音声合成用のデータを生成および利用するためのシステムであり、音声解析装置100と音声合成装置200とを具備する。音声解析装置100は、特定の歌唱者(以下「参照歌唱者」という)の歌唱スタイルを表す歌唱特性データZを生成する。歌唱スタイルは、例えば参照歌唱者に特有の歌い廻し(例えばしゃくり)や表情等の表現法を意味する。音声合成装置200は、音声解析装置100が生成した歌唱特性データZを適用した音声合成で、参照歌唱者の歌唱スタイルを反映した任意の楽曲の歌唱音声の音声信号Vを生成する。すなわち、所望の楽曲について参照歌唱者の歌唱音声が存在しない場合でも、参照歌唱者の歌唱スタイルが付与された当該楽曲の歌唱音声(すなわち参照歌唱者が当該楽曲を歌唱したような音声)を生成することが可能である。なお、図1では音声解析装置100と音声合成装置200とを別体の装置として例示したが、音声解析装置100と音声合成装置200とを単体の装置で実現することも可能である。
図1に例示される通り、音声解析装置100は、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行する音声解析プログラムGAや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。
図1の音声合成装置200は、前述の通り、音声解析装置100が生成した歌唱特性データZを適用した音声合成で音声信号Vを生成する信号処理装置である。図1に例示される通り、音声合成装置200は、演算処理装置52と記憶装置54と表示装置56と入力装置57と放音装置58とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
・単位区間UA内の音符がフレーズQ内の始点側に位置するか否か。
・単位区間UA内の音符がフレーズQ内の終点側に位置するか否か。
・単位区間UA内の音符とフレーズQ内の最高音との距離が所定値を上回るか否か。
・単位区間UA内の音符とフレーズQ内の最低音との距離が所定値を上回るか否か。
・単位区間UA内の音符とフレーズQ内の最頻音との距離が所定値を上回るか否か。
以上の各条件における「距離」は、時間軸上の距離(時間差)および音高軸上の距離(音高差)の双方を含意し、フレーズQ内の複数の音符が該当する場合には例えば単位区間UA内の音符との最短距離である。また、「最頻音」は、フレーズQ内での発音回数または発音時間(または両者の乗算値)が最大となる音符を意味する。
第3実施形態における音声合成装置200の変数設定部64は、第1実施形態と同様に相対ピッチ遷移CRを生成するほか、音声合成部66による音声合成に適用される制御変数を相対ピッチ遷移CRの各相対ピッチRに応じて可変に設定する。制御変数は、合成音声に付与される音楽的な表情を制御するための変数である。例えば発音の強弱(ベロシティ)や音色(例えば明瞭度等)の変数が制御変数として好適であるが、以下の説明では音量(ダイナミクス)Dynを制御変数として例示する。
Dyn=tanh(R×β/8192)×64+64 ……(A)
数式(A)の係数βは、相対ピッチRに対する音量Dynの変化の割合を相対ピッチRの正側と負側とで相違させるための変数であり、具体的には相対ピッチRが負数である場合には4に設定されるとともに、相対ピッチRが非負数(ゼロまたは正数)である場合には1に設定される。なお、係数βの数値や数式(A)の内容は便宜的な例示であり適宜に変更され得る。
決定木T[n]の各節点νの条件を適切に設定することで、歌唱特性データZに応じた相対ピッチ遷移CRには、参照音声のビブラートの特性を反映した相対ピッチRの時間的な変動が現れる。しかし、歌唱特性データZを利用した相対ピッチ遷移CRの生成では、相対ピッチRの変動の周期性が必ずしも担保されないから、図14の部分(A)に例示される通り、楽曲内のビブラートを付与すべき区間にて相対ピッチ遷移CRの各相対ピッチRが不規則に変動する可能性がある。以上の事情を考慮して、第4実施形態の音声合成装置200の変数設定部64は、合成楽曲のうちビブラートに起因した相対ピッチRの変動を周期的な変動に修正する。
第1実施形態では、確率モデルMの状態St毎に独立の決定木T[n]を例示した。第5実施形態における音声解析装置100の特性解析部24(解析処理部44)は、図16から理解される通り、確率モデルMのN個の状態Stにわたり共通する単一の決定木(以下「基礎決定木」という)T0から状態St毎の決定木T[n](T[1]〜T[N])を生成する。したがって、中間節νbや終端節νcの有無は決定木T[n]毎に相違する(したがって終端節νcの個数Kは第1実施形態と同様に決定木T[n]毎に相違する)が、各決定木T[n]にて相対応する各中間節νbの条件の内容は共通する。なお、図16では、条件が共通する各節点νは同態様(ハッチング)で図示されている。
前述の各形態では、1個の参照楽曲の参照音声から検出されたピッチPAを利用して決定木T[n]を生成する場合を便宜的に例示したが、実際には、相異なる複数の参照楽曲の参照音声から検出されたピッチPAを利用して決定木T[n]が生成される。以上のように複数の参照楽曲から各決定木T[n]を生成する構成では、相異なる参照楽曲に包含される複数の単位区間UAが決定木T[n]の1個の終端節νcに混在した状態で分類されて当該終端節νcの変数群Ω[k]の生成に利用され得る。他方、音声合成装置200の変数設定部64による相対ピッチ遷移CRの生成の場面では、合成楽曲内の1個の音符に包含される複数の単位区間UBが決定木T[n]の相異なる終端節νcに分類される。したがって、合成楽曲の1個の音符に対応する複数の単位区間UBの各々に、相異なる参照楽曲のピッチPAの傾向が反映され、合成音声(特にビブラート等の特性)が聴感的に不自然な印象に知覚される可能性がある。
A1:単位区間Uを内包する1個の音符の音高や継続長に関する条件
A2:単位区間Uを内包する1個の音符の前後の音符の音高や継続長に関する条件
A3:フレーズQ内の1個の音符の位置(時間軸上または音高軸上の位置)に関する条件
条件A1は、例えば、単位区間Uを内包する1個の音符の音高や継続長が所定の範囲にあるか否かという条件である。条件A2は、例えば、単位区間Uを内包する1個の音符と直前または直後の音符との音高差が所定の範囲にあるか否かという条件である。また、条件A3は、例えば、単位区間Uを内包する1個の音符がフレーズQの始点側に位置するか否かという条件や、当該音符がフレーズQの終点側に位置するか否かという条件である。
図20は、第7実施形態の動作の説明図である。第7実施形態の音声合成装置200の記憶装置54には、参照歌唱者が共通する歌唱特性データZ1と歌唱特性データZ2とが記憶される。歌唱特性データZ1の任意の単位データz[n]は、決定木T1[n]と変数情報D1[n]とを含んで構成され、歌唱特性データZ2の任意の単位データz[n]は、決定木T2[n]と変数情報D2[n]とを含んで構成される。決定木T1[n]と決定木T2[n]とは、共通の参照音声から生成された木構造であるが、図20からも理解される通りサイズ(木構造の階層数や節点νの総数)が相違する。具体的には、決定木T1[n]のサイズは決定木T2[n]のサイズを下回る。例えば特性解析部24による決定木T[n]の生成時に、相異なる条件で木構造の分岐を停止させることで、サイズが相違する決定木T1[n]と決定木T2[n]とが生成される。なお、木構造の分岐を停止させる条件を相違させた場合のほか、各節点νに設定される条件の内容や配列(質問セット)を相違させた場合(例えばフレーズQに関する条件を一方には含ませない場合)にも、決定木T1[n]と決定木T2[n]とでサイズや構造(各節点νに設定される条件の内容や配列)が相違し得る。
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
Claims (5)
- 楽曲の各音符を時系列に指定する楽曲データから生成されて時間軸上で連続に変動するピッチと前記楽曲を歌唱した参照音声のピッチとの差分である相対ピッチの時系列を生成する変数抽出手段と、
前記変数抽出手段が生成した相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データを生成する特性解析手段と
を具備し、
前記特性解析手段は、
所定の音価を単位として前記楽曲を複数の単位区間に区分する区間設定手段と、
前記区間設定手段が区分した前記複数の単位区間を複数の集合に分類する決定木と、各集合に分類された各単位区間内の相対ピッチの時系列の確率分布を規定する変数情報とを、前記確率モデルの複数の状態の各々について含む前記歌唱特性データを生成する解析処理手段とを含む
音声解析装置。 - 前記解析処理手段は、前記確率モデルの複数の状態にわたり共通する基礎決定木から状態毎の決定木を生成する
請求項1の音声解析装置。 - 前記状態毎の決定木は、楽曲を時間軸上で区分した各フレーズと単位区間との関係に応じた条件を包含する
請求項1の音声解析装置。 - 前記変数抽出手段は、
時間軸上で連続に変動するピッチを前記楽曲データから生成する遷移生成手段と、
前記楽曲を歌唱した参照音声のピッチを検出するピッチ検出手段と、
前記参照音声のうちピッチが検出されない無声区間についてピッチを設定する補間処理手段と、
前記遷移生成手段が生成したピッチと前記補間処理手段による処理後のピッチとの差分を前記相対ピッチとして算定する差分算定手段とを含み、
前記補間処理手段は、前記無声区間の直前の第1区間内のピッチの時系列に応じて前記無声区間のうち前記第1区間の直後の第1補間区間内のピッチを設定するとともに、前記無声区間の直後の第2区間内のピッチの時系列に応じて前記無声区間のうち前記第2区間の直前の第2補間区間内のピッチを設定する
請求項1の音声解析装置。 - 楽曲の各音符を時系列に指定する楽曲データから生成されて時間軸上で連続に変動するピッチと前記楽曲を歌唱した参照音声のピッチとの差分である相対ピッチの時系列を生成する変数抽出ステップと、
前記変数抽出ステップで生成した相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データを生成する特性解析ステップと
を含み、
前記特性解析ステップは、
所定の音価を単位として前記楽曲を複数の単位区間に区分する区間設定ステップと、
前記区間設定ステップが区分した前記複数の単位区間を複数の集合に分類する決定木と、各集合に分類された各単位区間内の相対ピッチの時系列の確率分布を規定する変数情報とを、前記確率モデルの複数の状態の各々について含む前記歌唱特性データを生成する解析処理ステップとを含む
音声解析方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013166311A JP6171711B2 (ja) | 2013-08-09 | 2013-08-09 | 音声解析装置および音声解析方法 |
EP14180151.4A EP2838082B1 (en) | 2013-08-09 | 2014-08-07 | Voice analysis method and device, and medium storing voice analysis program |
EP15185624.2A EP2983168B1 (en) | 2013-08-09 | 2014-08-07 | Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program |
EP15185625.9A EP2980786B1 (en) | 2013-08-09 | 2014-08-07 | Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program |
US14/455,652 US9355628B2 (en) | 2013-08-09 | 2014-08-08 | Voice analysis method and device, voice synthesis method and device, and medium storing voice analysis program |
CN201410392430.2A CN104347080B (zh) | 2013-08-09 | 2014-08-11 | 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013166311A JP6171711B2 (ja) | 2013-08-09 | 2013-08-09 | 音声解析装置および音声解析方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016235759A Division JP6390690B2 (ja) | 2016-12-05 | 2016-12-05 | 音声合成方法および音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015034920A JP2015034920A (ja) | 2015-02-19 |
JP6171711B2 true JP6171711B2 (ja) | 2017-08-02 |
Family
ID=51292846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013166311A Expired - Fee Related JP6171711B2 (ja) | 2013-08-09 | 2013-08-09 | 音声解析装置および音声解析方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9355628B2 (ja) |
EP (3) | EP2980786B1 (ja) |
JP (1) | JP6171711B2 (ja) |
CN (1) | CN104347080B (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159310B2 (en) | 2012-10-19 | 2015-10-13 | The Tc Group A/S | Musical modification effects |
CN106463111B (zh) * | 2014-06-17 | 2020-01-21 | 雅马哈株式会社 | 基于字符的话音生成的控制器与系统 |
US9123315B1 (en) * | 2014-06-30 | 2015-09-01 | William R Bachand | Systems and methods for transcoding music notation |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
CN106157977B (zh) * | 2015-04-10 | 2019-11-15 | 科大讯飞股份有限公司 | 一种唱歌评测方法及系统 |
JP6756151B2 (ja) * | 2015-07-24 | 2020-09-16 | ヤマハ株式会社 | 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 |
US9818396B2 (en) | 2015-07-24 | 2017-11-14 | Yamaha Corporation | Method and device for editing singing voice synthesis data, and method for analyzing singing |
CN105825844B (zh) * | 2015-07-30 | 2020-07-07 | 维沃移动通信有限公司 | 一种修音的方法和装置 |
JP6696138B2 (ja) * | 2015-09-29 | 2020-05-20 | ヤマハ株式会社 | 音信号処理装置およびプログラム |
US10008193B1 (en) * | 2016-08-19 | 2018-06-26 | Oben, Inc. | Method and system for speech-to-singing voice conversion |
US10134374B2 (en) * | 2016-11-02 | 2018-11-20 | Yamaha Corporation | Signal processing method and signal processing apparatus |
JP6790732B2 (ja) * | 2016-11-02 | 2020-11-25 | ヤマハ株式会社 | 信号処理方法、および信号処理装置 |
JP2017107228A (ja) * | 2017-02-20 | 2017-06-15 | 株式会社テクノスピーチ | 歌声合成装置および歌声合成方法 |
JP6809608B2 (ja) * | 2017-06-28 | 2021-01-06 | ヤマハ株式会社 | 歌唱音生成装置及び方法、プログラム |
JP6569712B2 (ja) | 2017-09-27 | 2019-09-04 | カシオ計算機株式会社 | 電子楽器、電子楽器の楽音発生方法、及びプログラム |
JP7000782B2 (ja) * | 2017-09-29 | 2022-01-19 | ヤマハ株式会社 | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 |
JP2019066649A (ja) * | 2017-09-29 | 2019-04-25 | ヤマハ株式会社 | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 |
JP6988343B2 (ja) * | 2017-09-29 | 2022-01-05 | ヤマハ株式会社 | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 |
JP6699677B2 (ja) * | 2018-02-06 | 2020-05-27 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
JP6992612B2 (ja) * | 2018-03-09 | 2022-01-13 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
JP7147211B2 (ja) * | 2018-03-22 | 2022-10-05 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
WO2019239972A1 (ja) * | 2018-06-15 | 2019-12-19 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
JP7124870B2 (ja) * | 2018-06-15 | 2022-08-24 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
JP7293653B2 (ja) * | 2018-12-28 | 2023-06-20 | ヤマハ株式会社 | 演奏補正方法、演奏補正装置およびプログラム |
CN110164460A (zh) * | 2019-04-17 | 2019-08-23 | 平安科技(深圳)有限公司 | 歌唱合成方法和装置 |
JP7280605B2 (ja) * | 2019-07-01 | 2023-05-24 | 株式会社テクノスピーチ | 音声処理装置、および音声処理方法 |
CN111081265B (zh) * | 2019-12-26 | 2023-01-03 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
CN111402856B (zh) * | 2020-03-23 | 2023-04-14 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、可读介质及电子设备 |
JP7604845B2 (ja) * | 2020-11-06 | 2024-12-24 | ヤマハ株式会社 | 音響処理システム、音響処理方法およびプログラム |
CN114779829B (zh) * | 2022-04-08 | 2024-10-25 | 沈阳工程学院 | 一种微型扑翼飞行机器人行为控制方法及控制系统 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2838977B2 (ja) * | 1995-01-17 | 1998-12-16 | ヤマハ株式会社 | カラオケ装置 |
JP3319211B2 (ja) * | 1995-03-23 | 2002-08-26 | ヤマハ株式会社 | 音声変換機能付カラオケ装置 |
NZ304418A (en) * | 1995-04-12 | 1998-02-26 | British Telecomm | Extension and combination of digitised speech waveforms for speech synthesis |
US5641927A (en) * | 1995-04-18 | 1997-06-24 | Texas Instruments Incorporated | Autokeying for musical accompaniment playing apparatus |
JP3299890B2 (ja) * | 1996-08-06 | 2002-07-08 | ヤマハ株式会社 | カラオケ採点装置 |
JP3293745B2 (ja) * | 1996-08-30 | 2002-06-17 | ヤマハ株式会社 | カラオケ装置 |
JP3502247B2 (ja) * | 1997-10-28 | 2004-03-02 | ヤマハ株式会社 | 音声変換装置 |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
JP3365354B2 (ja) * | 1999-06-30 | 2003-01-08 | ヤマハ株式会社 | 音声信号または楽音信号の処理装置 |
JP3838039B2 (ja) * | 2001-03-09 | 2006-10-25 | ヤマハ株式会社 | 音声合成装置 |
JP4026446B2 (ja) | 2002-02-28 | 2007-12-26 | ヤマハ株式会社 | 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム |
CN1210688C (zh) * | 2002-04-09 | 2005-07-13 | 无敌科技股份有限公司 | 语音音素的编码及语音合成方法 |
JP3966074B2 (ja) * | 2002-05-27 | 2007-08-29 | ヤマハ株式会社 | ピッチ変換装置、ピッチ変換方法及びプログラム |
JP3823930B2 (ja) * | 2003-03-03 | 2006-09-20 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成プログラム |
WO2008111158A1 (ja) * | 2007-03-12 | 2008-09-18 | Fujitsu Limited | 音声波形補間装置および方法 |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
US8244546B2 (en) * | 2008-05-28 | 2012-08-14 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
KR20100057307A (ko) * | 2008-11-21 | 2010-05-31 | 삼성전자주식회사 | 노래점수 평가방법 및 이를 이용한 가라오케 장치 |
JP5293460B2 (ja) * | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP5605066B2 (ja) | 2010-08-06 | 2014-10-15 | ヤマハ株式会社 | 音合成用データ生成装置およびプログラム |
JP6236765B2 (ja) * | 2011-11-29 | 2017-11-29 | ヤマハ株式会社 | 音楽データ編集装置および音楽データ編集方法 |
JP5811837B2 (ja) * | 2011-12-27 | 2015-11-11 | ヤマハ株式会社 | 表示制御装置及びプログラム |
JP5605731B2 (ja) * | 2012-08-02 | 2014-10-15 | ヤマハ株式会社 | 音声特徴量算出装置 |
AR092642A1 (es) * | 2012-09-24 | 2015-04-29 | Hitlab Inc | Metodo y sistema para evaluar usuarios de karaoke |
-
2013
- 2013-08-09 JP JP2013166311A patent/JP6171711B2/ja not_active Expired - Fee Related
-
2014
- 2014-08-07 EP EP15185625.9A patent/EP2980786B1/en not_active Not-in-force
- 2014-08-07 EP EP15185624.2A patent/EP2983168B1/en not_active Not-in-force
- 2014-08-07 EP EP14180151.4A patent/EP2838082B1/en not_active Not-in-force
- 2014-08-08 US US14/455,652 patent/US9355628B2/en not_active Expired - Fee Related
- 2014-08-11 CN CN201410392430.2A patent/CN104347080B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20150040743A1 (en) | 2015-02-12 |
EP2838082B1 (en) | 2018-07-25 |
EP2983168A1 (en) | 2016-02-10 |
EP2838082A1 (en) | 2015-02-18 |
JP2015034920A (ja) | 2015-02-19 |
EP2980786B1 (en) | 2017-03-22 |
EP2980786A1 (en) | 2016-02-03 |
CN104347080B (zh) | 2018-08-10 |
CN104347080A (zh) | 2015-02-11 |
US9355628B2 (en) | 2016-05-31 |
EP2983168B1 (en) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6171711B2 (ja) | 音声解析装置および音声解析方法 | |
US9818396B2 (en) | Method and device for editing singing voice synthesis data, and method for analyzing singing | |
JP3985814B2 (ja) | 歌唱合成装置 | |
JP4839891B2 (ja) | 歌唱合成装置および歌唱合成プログラム | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP4265501B2 (ja) | 音声合成装置およびプログラム | |
JP6390690B2 (ja) | 音声合成方法および音声合成装置 | |
JP2018004870A (ja) | 音声合成装置および音声合成方法 | |
JP6756151B2 (ja) | 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP6171393B2 (ja) | 音響合成装置および音響合成方法 | |
WO2019239971A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP5552797B2 (ja) | 音声合成装置および音声合成方法 | |
JP6191094B2 (ja) | 音声素片切出装置 | |
JP5935831B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2018077281A (ja) | 音声合成方法 | |
JP2018077280A (ja) | 音声合成方法 | |
JP6331470B2 (ja) | ブレス音設定装置およびブレス音設定方法 | |
JP6822075B2 (ja) | 音声合成方法 | |
JP6056190B2 (ja) | 音声合成装置 | |
JP5915264B2 (ja) | 音声合成装置 | |
JP5641266B2 (ja) | 音声合成装置、音声合成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150820 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170619 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6171711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |