JP4205824B2 - 歌唱評価装置およびカラオケ装置 - Google Patents
歌唱評価装置およびカラオケ装置 Download PDFInfo
- Publication number
- JP4205824B2 JP4205824B2 JP30027499A JP30027499A JP4205824B2 JP 4205824 B2 JP4205824 B2 JP 4205824B2 JP 30027499 A JP30027499 A JP 30027499A JP 30027499 A JP30027499 A JP 30027499A JP 4205824 B2 JP4205824 B2 JP 4205824B2
- Authority
- JP
- Japan
- Prior art keywords
- singing
- voice
- frame
- phoneme
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
【発明の属する技術分野】
本発明は、歌唱の巧拙を評価可能な歌唱評価装置およびこれを用いたカラオケ装置に関する。
【0002】
【従来の技術】
従来より、歌唱者の歌唱の巧拙を評価する歌唱評価機能を備えた各種のカラオケ装置が提供されている。
この種のカラオケ装置として、例えば、歌唱者が歌うべきメロディの音程や音量等を指定する情報を含む基準歌唱情報(例えばMIDIデータ)等が記憶されたメモリと、マイクから入力された歌唱音声の音程および音量等を抽出する抽出部と、上記メモリに記憶された音程および音量と上記抽出部によって抽出された歌唱音声の音程および音量とを比較し、この比較結果に基づいて歌唱を評価する評価部とを具備したカラオケ装置が知られている。
【0003】
図12は、上記従来のカラオケ装置における音程の評価方法を示す概念図である。同図において、横軸は時間、縦軸は周波数(音程)をそれぞれ表している。また、図中の太線は基準歌唱情報によって指定される音程の時間的変化を表しており、細線は歌唱音声から抽出された音程の時間的変化を表している。同図に示すように、このカラオケ装置においては、音程情報によって指定される音程と歌唱音声の音程とが、一定時間(例えば50ms)毎に到来する評価タイミングにおいて比較され、この比較結果に基づいて歌唱の巧拙が評価されるようになっている。例えば、図中の評価タイミングTk1においては、音程情報によって指定される音程と、歌唱音声の音程とが概ね一致しているため、音程については高い評価が得られることとなる。
【0004】
【発明が解決しようとする課題】
しかしながら、上述した評価方法においては以下に示す問題点がある。例えば、図12中の評価タイミングTk2の近傍においては、歌唱音声の音程および基準音声の音程がともに変化している。ここで、歌唱音声の変化前の音程は、基準歌唱音声の変化前の音程と概ね一致しており、歌唱音声の変化後の音程は、基準歌唱音声の変化後の音程と概ね一致している。それにもかかわらず、歌唱音声の音程の変化のタイミングが、音程情報が示す音程の変化のタイミングとずれているため、図中の評価タイミングTk2における評価では、音程が大きくずれているものと判断され、評価が低くなってしまうという問題がある。
【0005】
ここで、一般に、感情を込めて歌った場合には、歌唱のタイミングが実際のメロディとずれてしまう場合がある。また、歌唱のタイミングを意図的にずらした方が上手く聞こえる場合があるものである。しかしながら、上述したように、上記評価方法では、このような意図的なタイミングのずれを正当に評価できない。すなわち、音程情報が示す音程と正確に一致するように、感情を込めることなく機械的に歌唱した方が高い評価が得られるのである。このように、従来のカラオケ装置においては、実際の歌唱の巧拙が評価結果に的確に反映されているとはいえなかった。
【0006】
本発明は、以上説明した事情に鑑みてなされたものであり、歌唱の巧拙を的確に評価することができる歌唱評価装置およびこれを用いたカラオケ装置を提供することを目的としている。
【0007】
【課題を解決するための手段】
上述した課題を解決するために、請求項1に記載の歌唱評価装置は、基準音声を時間軸上で分割した複数の基準フレーム毎に当該基準音声の音楽要素を記憶する記憶手段と、歌唱者の歌唱音声を歌唱フレームに順次分割し、分割により得られた歌唱フレームに対応した基準フレームを探索するとともに、基準音声要素に対する歌唱音声音素遷移の飛び越しおよび後退の発生回数であるアライメント安定度を出力するアライメント手段と、前記分割により得られた歌唱フレームの音楽要素を抽出する分析手段と、前記分析手段によって抽出された歌唱フレームの音楽要素と、前記アライメント手段によって探索された基準フレームの音楽要素とを比較する比較手段と、前記比較手段による比較結果と前記アライメント安定度に基づいて歌唱を評価する評価手段とを具備することを特徴としている。
また、請求項2に記載の歌唱評価装置は、請求項1に記載の構成において、前記記憶手段に記憶された各基準フレームの音楽要素の時間的変化と、前記分析手段によって抽出された歌唱フレームの音楽要素の時間的変化とを比較することにより、歌唱タイミングの一致度を検出するタイミング比較手段を具備し、前記評価手段は、前記比較手段およびタイミング比較手段による比較結果に基づいて歌唱を評価することを特徴としている。
また、請求項3に記載の歌唱評価装置は、請求項1に記載の構成において、前記アライメント手段は、前記歌唱フレームに対応した基準フレームを探索するとともに、探索された基準フレームと、本来歌唱すべき基準フレームとの時間的な差に基づいて歌唱音声と基準音声の歌唱タイミングの一致度を検出し、前記評価手段は、前記比較手段による比較結果、および前記アライメント手段によって検出された歌唱タイミングの一致度に基づいて歌唱を評価することを特徴としている。
請求項4に記載の歌唱評価装置は、請求項1〜3のいずれか1の請求項に記載の構成において、前記音楽要素として音程を含むことを特徴としている。
請求項5に記載の歌唱評価装置は、請求項1〜4のいずれか1の請求項に記載の構成において、前記音楽要素として音量を含むことを特徴としている。
請求項6に記載の歌唱評価装置は、請求項1〜5のいずれか1の請求項に記載の構成において、前記音楽要素として声質を含むことを特徴としている。
また、請求項7に記載の歌唱評価装置は、請求項6に記載の構成において、前記比較手段は、スペクトルマッチング尺度を用いて前記基準音声の声質と歌唱音声の声質とを比較することを特徴としている。
請求項8に記載の歌唱評価装置は、請求項6に記載の構成において、前記比較手段は、前記基準音声の1以上のフォルマント周波数と歌唱音声の1以上のフォルマント周波数とを比較することを特徴としている。
また、請求項9に記載の歌唱評価装置は、請求項1〜8のいずれか1の請求項に記載の構成において、前記アライメント手段は、歌唱音声の音素と基準音声の音素とを対比することにより各歌唱フレームに対応した基準フレームを探索することを特徴としている。
請求項10に記載の歌唱評価装置は、請求項1〜9のいずれか1の請求項に記載の構成において、前記アライメント手段は、楽曲の音素列を記憶する音素列記憶手段と、歌唱音声の代表的なパラメータを特徴ベクトルとして所定数のシンボルにクラスタ化した符号帳と、各音素毎の状態遷移確率および前記各シンボルの観測確率とを記憶する音素情報記憶手段と、前記分割により得られた歌唱フレームを特徴パラメータ分析し、前記音素情報記憶手段に記憶された符号帳に基づいて当該歌唱フレームの特徴パラメータをシンボル量子化して当該歌唱フレームの観測シンボルとする量子化手段と、前記音素情報記憶手段に記憶された状態遷移確率および観測確率に基づいて、前記音素列記憶手段に記憶された音素列の各状態を有限状態ネットワーク上で隠れマルコフモデルによって形成する状態形成手段と、前記量子化手段によって量子化された観測シンボルと、前記状態形成手段によって形成された前記隠れマルコフモデルに従って、1パスビタビアルゴリズムによって状態遷移を決定する状態遷移決定手段と、決定した前記歌唱音声の状態遷移に基づいて、各歌唱フレームに対応した基準フレームを探索する探索手段とを具備すること特徴としている。
【0008】
また、本発明は、請求項1〜10のいずれか1の請求項に記載の歌唱評価装置と、
前記歌唱音声を入力するための音声入力手段と、
楽曲データに従って楽音信号を生成して出力する音源と、
前記歌唱音声および楽音信号を音として出力する出力手段と
を具備することを特徴とするカラオケ装置を提供するものである。
【0009】
【発明の実施の形態】
以下、図面を参照して、本発明の実施形態について説明する。なお、以下に示す実施形態においては、本発明に係る歌唱評価装置をカラオケ装置に適用した場合を例に説明する。かかる実施の形態は、本発明の一態様を示すものであり、この発明を限定するものではなく、本発明の範囲内で任意に変更可能である。
【0010】
A:第1実施形態
A−1:第1実施形態の構成
図1は、本発明の第1実施形態であるカラオケ装置1の全体構成を示すブロック図である。同図に示すように、このカラオケ装置1は、歌唱者が発する歌唱音声を電気信号(以下、「歌唱音声信号」という)に変換して出力するマイク2と、楽曲の伴奏の演奏等を行うカラオケ処理部3と、歌唱者による歌唱の巧拙を評価して評価結果を歌唱者に報知する歌唱評価部4とにより構成されている。
【0011】
カラオケ処理部3は、MIDIデータや時間データおよび歌詞データなどを含む複数の楽曲データを記憶した楽曲データ記憶部31と、歌唱者によって指定された楽曲データ中のMIDIデータを時間データに従って再生するシーケンサ32と、シーケンサ32の出力信号に従って伴奏音等の楽音信号を生成する音源33と、この楽音信号とマイク2から供給される歌唱音声信号とをミキシングして出力するミキサ34と、ミキサ34の出力信号を音として出力するスピーカ35とを具備している。
【0012】
歌唱評価部4は、音声信号切出部41、分析窓生成部42、FFT(高速フーリエ変換)部43、分析部44、タイミング比較部45、音程・音量・声質比較部46、基準歌唱データベース47、アライメント処理部48、音素辞書記憶部49、採点結果演算部50および採点結果表示部51を備えている。
【0013】
基準歌唱データベース47には、基準音声に関する各種情報、すなわち、基準歌唱情報、音韻テーブルおよび音素記述列が記憶されている。基準歌唱情報および音素記述列は、上記楽曲データ記憶部31に記憶された複数の楽曲の各々に対応して記憶されている。一方、音韻テーブルは、各楽曲の歌手の各々に対応して記憶されている。
【0014】
ここで、図2(a)を参照して、基準歌唱データベース47に記憶された基準歌唱情報について説明する。この基準歌唱情報は、ある楽曲の歌手による歌唱音声(以下、「基準音声」という)を楽曲の開始時点から一定時間間隔(以下、「基準フレーム」という)毎に区切り、各基準フレーム毎に基準音声の音程、音量および音韻を求めて得られたものである。具体的には、この基準歌唱情報は、図2(a)に示すように、いずれかの基準フレームを特定するための基準フレーム番号(Ft1、Ft2、…)と、各基準フレーム単位で区切られた基準音声の基本周波数を表す基準音程情報(P4、P5等)と、各基準フレーム単位で区切られた基準音声の平均アンプリチュードを表す基準音量情報(A3、A4等)と、音韻番号とにより構成されている。また、音韻番号は、「0」〜「256」のいずれかの数値である。なお、基準音程情報が「0」である基準フレームは、歌手による歌唱がない基準フレームまたは無声子音(息継ぎの音などの周期性のない音)のみの基準フレームである。
【0015】
また、基準歌唱データベース47に記憶された音韻テーブルは、図2(b)に示すように、上述した基準歌唱情報中の音韻番号(0〜256)と、各音韻番号に対応付けられたメルケプストラム係数とにより構成されている。このメルケプストラム係数は、基準音声のスペクトル形状、すなわち声質を少ないパラメータで表すことのできる係数である。このように、上述した基準歌唱情報中の音韻番号は、音韻テーブル中のメルケプストラム係数のうちのいずれかを指定するための番号となっている。
【0016】
基準歌唱データベース47に記憶された音素記述列は、図2(c)に示すように、演奏対象となる楽曲の歌詞に対応して音素を並べた音素列と、音素列を構成する各音素に対応する基準フレーム(通常、1の音素に対して複数の基準フレームが対応している)の基準フレーム番号とにより構成されている。例えば、図2(c)に示す例においては、基準フレームFt1〜Ft3が音素/Silence/に対応しており、基準フレームFt4〜Ft9が音素/n/に対応しており、基準フレームFt10〜が音素/a/に対応している。
【0017】
再び図1において、分析窓生成部42は、上述した基準音声の基準フレームと同じ時間的長さを有する分析窓(例えばハミング窓)を生成して音声信号切出部41に出力する。音声信号切出部41は、この分析窓生成部42から供給される分析窓と、マイク2から入力される歌唱音声信号とを掛け合わせて出力する。すなわち、音声信号切出部41は、歌唱音声信号をフレーム単位で切り出して、FFT部43に出力する。以下では、歌唱音声の各フレームを歌唱フレーム(Fm1、Fm2、…)と呼ぶ。FFT部43は、音声信号切出部41から出力される各歌唱フレーム単位の歌唱音声信号に対してFFTを施し、分析部44およびアライメント処理部48に出力する。
【0018】
アライメント処理部48は、歌唱者が楽曲中のどの部分を歌っているのかを求めるための手段である。具体的には、アライメント処理部48は、歌唱者の歌唱位置と基準音声信号の基準フレームとの時間的位置関係を判別し、歌唱者が歌っている部分が、基準音声のうちのどの基準フレームに該当するのかを表す歌唱位置情報を生成するための処理を行う。すなわち、歌唱者による歌唱のタイミングが、本来の歌唱のタイミング(すなわち、基準音声の歌唱タイミング)とずれている場合であっても、歌唱者が歌っている部分(歌唱フレーム)が、基準音声の基準フレームのうちのいずれの基準フレームに該当するのかを判別できるようになっている。
【0019】
ここで、図3を参照して、アライメント処理部48の詳細な構成について説明する。
同図に示すように、アライメント処理部48は、特徴パラメータ分析部481、シンボル量子化部482、音素列状態形成部483、状態遷移決定部484およびアライメント部485により構成されている。
【0020】
特徴パラメータ分析部481は、FFT部43の出力信号から歌唱音声のスペクトル特性を特徴づける特徴パラメータを抽出し、シンボル量子化部482に出力する。本実施形態においては、特徴パラメータとして、メルケプストラム係数、差分メルケプストラム係数、エネルギ係数、差分エネルギ係数、ボイスネス(有声音尤度)係数の5種類のパラメータを用いる。なお、差分メルケプストラム係数とは、直前の歌唱フレームと現在の歌唱フレームとのメルケプストラム係数の差分値を示す。また、差分エネルギ係数とは、直前の歌唱フレームと現在の歌唱フレームとのエネルギの差分値を示す。ボイスネス係数とは、ゼロ交差数およびピッチ検出を行うときに求まる検出誤差値等から総合的に求められる値、あるいは、総合的に重み付けして求められる値であり、有声音らしさを表す数値である。
【0021】
シンボル量子化部482は、音素辞書記憶部49に記憶された符号帳(詳細は後述する)を参照して、特徴パラメータ分析部481から供給される歌唱フレーム毎の特徴パラメータに対し、最大尤度をもつ特徴シンボルを選び出し、状態遷移決定部484に出力する。
【0022】
音素列状態形成部483は、基準歌唱データベース47に記憶された音素記述列に基づいて隠れマルコフモデルによる音素列の形成を行う。状態遷移決定部484は、シンボル量子化部482から供給される歌唱フレーム単位の特徴シンボルを用いて、後述する1パスビタビ(Viterbi)アルゴリズムに従って歌唱音声の状態遷移を決定する。アライメント部485は、状態遷移決定部484によって決定された状態遷移に基づいて、歌唱音声の音素と基準音声の音素とをフレーム単位で対応付け、歌唱音声の歌唱フレームに対応する基準音声の基準フレームを探索し、当該基準フレームの基準フレーム番号を歌唱位置情報として出力する。
【0023】
音素辞書記憶部49には、符号帳および確率データが記憶されている。
符号帳は、図4に示すように、音声信号の代表的な特徴パラメータを特徴ベクトルとして所定数のシンボルにクラスタ化したものである。すなわち、この符号帳は、歌唱音声信号を各種特徴ベクトル(メルケプストラム係数、差分メルケプストラム係数、エネルギ係数、差分エネルギ係数、ボイスネス(有声音尤度)係数)にベクトル量子化するために用いられる。
【0024】
ここで、図4を参照しつつ、本実施形態において用いる特徴ベクトルについて説明する。
▲1▼メルケプストラム係数(bMEL)
メルケプストラム係数は、音声のスペクトル特性を少ない次数で表す係数であり、本実施形態では12次元ベクトルとして128シンボルにクラスタ化されている。
▲2▼差分メルケプストラム係数(bdeltaMEL)
差分メルケプストラム係数は、直前の歌唱フレームと現在の歌唱フレームとのメルケプストラム係数の差分値を表す係数であり、本実施形態では12次元ベクトルとして128シンボルにクラスタ化されている。
▲3▼エネルギ係数(bENERGY)
エネルギ係数は、音声の強さを表す係数であり、本実施形態では1次元ベクトルとして32シンボルにクラスタ化されている。
▲4▼差分エネルギ係数(bdeltaENERGY)
差分エネルギ係数は、直前の歌唱フレームと現在の歌唱フレームとのエネルギ係数の差分値を表す係数であり、1次元ベクトルとして32シンボルにクラスタ化されている。
▲5▼ボイスネス(bVOICENESS)
ボイスネス係数は、有声音らしさを表す特徴ベクトルであり、ゼロクロス率およびピッチエラーで特徴づける2次元ベクトルとして32シンボルにクラスタ化されている。
以上が本実施形態において用いる特徴ベクトルである。
【0025】
次に、音素辞書記憶部49に記憶された確率データについて説明する。
本実施形態では、音声をモデル化するためのサブワード単位としてPLU(疑似音素単位)を用いる。具体的には、図5に示すように、日本語を27の音素単位で扱うものとし、各音素には状態数が対応付けられている。状態数とは、サブワード単位の持続する最も短い基準フレーム数をいう。例えば音素/a/の状態数は「3」であるので、音素/a/は少なくとも3つの基準フレームにわたって続くことを意味する。
【0026】
3状態の各々は、発音の立ち上がり・定常状態・リリース状態を擬似的に表したものである。音素/b/や/g/などの破裂音は、本来持つ音韻が短いので2状態に設定されており、息継ぎ(ASPIRATION)も2状態に設定されている。そして、無音(SILENCE)は、時間的変動がないので1状態に設定されている。確率データには、図6に示すように、サブワード単位で表される27の音素に対して、各状態の遷移確率と、各特徴ベクトルのシンボルに対する観測シンボル発生確率とが記述されている。
【0027】
再び図1において、分析部44は、FFT部43から供給される歌唱フレーム毎の歌唱音声信号を分析し、歌唱音声の音程を表す歌唱音程情報と、歌唱音声の音量を表す歌唱音量情報と、当該歌唱音声のメルケプストラム係数とを算出する。分析部44によって生成された歌唱音程情報および歌唱音量情報はタイミング比較部45に出力される一方、歌唱音程情報、歌唱音量情報およびメルケプストラム係数は音程・音量・声質比較部46に出力される。
【0028】
タイミング比較部45は、分析部44から順次供給される歌唱音程情報および歌唱音量情報と、上記基準歌唱データベース47中の基準音程情報および基準音量情報とを比較することにより、歌唱音声の歌唱タイミングと基準音声の歌唱タイミングとの一致度を検出し、この一致度を表すタイミング比較結果を採点結果演算部50に出力する。音程・音量・声質比較部46は、歌唱音声の各歌唱フレーム毎の音楽要素(音程、音量および声質)と、当該歌唱フレームに対応する基準音声の基準フレームの音楽要素とを比較し、比較結果を採点結果演算部50に出力する。
【0029】
採点結果演算部50は、タイミング比較部45から供給されるタイミング比較結果と、音程・音量・声質比較部46から供給される比較結果と、アライメント処理部48から供給されるアライメント安定度情報とに基づいて、当該歌唱の採点を行い、採点結果を採点結果表示部51に出力する。なお、本実施形態においては、タイミング、音程、音量、声質およびアライメントの各々について、個別に採点を行うものとする。採点結果表示部51は、例えばCRTまたは液晶ディスプレイ装置等の表示装置を備えており、採点結果演算部50から供給される各採点結果を表示する。ここで、採点結果演算部50には、歌唱フレーム毎にタイミング比較結果等が供給されて各音楽要素毎の採点結果が出力されるため、採点結果表示部51に表示される点数は、歌唱フレーム毎にリアルタイムに変化することとなる。
【0030】
A−2:第1実施形態の動作
次に、本実施形態の動作について説明する。
まず、ユーザが図示しない操作部に対して所定の操作を行うことにより、いずれかの楽曲を選択するとともに楽曲の開始を指示すると、シーケンサ32は当該楽曲に対応した楽曲データ中のMIDIデータを時間データに従って音源33に出力する。
【0031】
マイク2から入力された歌唱音声信号は、ミキサ34と、歌唱評価部4内の歌唱音声切出部41とに出力される。ミキサ34は、音源33から出力される楽音信号と、マイク2から入力された歌唱音声信号とをミキシングして出力する。この出力信号はスピーカ35から音として出力される。
【0032】
一方、音声信号切出部41は、マイク2から供給される歌唱音声信号と、分析窓生成部42から供給される分析窓とを掛け合わせることにより、歌唱音声信号を歌唱フレーム単位で切り出して出力する。FFT部43は、この音声信号切出部41からの出力信号に対してFFTを施し、分析部44およびアライメント処理部48に出力する。
【0033】
次に、前掲図3に示したアライメント処理部48内の各部の動作について説明する。
まず、特徴パラメータ分析部481は、FFT部43から供給される各歌唱フレーム毎の周波数スペクトルに対して特徴パラメータ解析を行い、各特徴パラメータを出力する。シンボル量子化部482は、音素辞書記憶部49に記憶された符号帳に含まれる特徴シンボルのうち、特徴パラメータ分析部481から供給される各特徴パラメータに対して最大尤度を持つ特徴シンボルを各特徴ベクトル毎に選び出し、選び出した特徴シンボルを状態遷移決定部484に出力する。
【0034】
一方、音素列状態形成部483は、音素辞書記憶部49に記憶された確率データに含まれる状態遷移確率と基準歌唱データベース47に記憶された音素記述列に基づいて、隠れマルコフモデルによる音素の状態形成を行う(図8(a)参照)。
【0035】
ここで、図7を参照して、隠れマルコフモデル(HMM)について説明する。なお、音声の状態は一方向へ遷移するので、left to right型のモデルを用いている。
時刻tにおいて、状態がiからjへ遷移する確率(状態遷移離散確率)をaijと表す。すなわち、図7に示す例では、状態▲1▼にとどまる確率をa11と表し、状態▲1▼から状態▲2▼へ遷移する確率をa12と表している。
【0036】
各状態の中には特徴ベクトルがそれぞれ存在し、各々に異なる観測シンボルがある。これをX={x1、x2、…、xT}と表す。
そして、時刻tにおいて状態がjであるときに特徴ベクトルのシンボルxtを発生させる確率(観測シンボル離散確率)をbj(xt)と表す。
モデルλにおいて、時刻Tまでの状態系列をQ={q1、q2、…、qT}とすると、観測シンボル系列Xと状態系列Qとの同時発生確率は、次式で表せる。
【数1】
観測シンボル系列は判っているが、状態系列は観測し得ないという理由で、このようなモデルが隠れマルコフモデル(HMM)と呼ばれている。本実施形態では、基準歌唱データベース47に記憶された音素記述列に基づいて、図7に示すようなFNS(有限状態ネットワーク)を音素単位で形成する。
【0037】
さて、状態遷移決定部484は、音素列状態形成部483によって形成された隠れマルコフモデルと、シンボル量子化部482から供給される歌唱フレーム単位の各特徴シンボルを用い、1パスビタビアルゴリズムによって歌唱音声の状態遷移を決定する。すなわち、歌唱音声の各歌唱フレームが、いずれの音素に対応するのかを特定する。
【0038】
ここで、1パスビタビアルゴリズムについて説明する。
下記式におけるΨt(j)は、時刻tに対応する歌唱フレームまでの観測を踏まえて算出した、1つのパスを経由して得られる時刻tの歌唱フレームにおけるベスト確率δt(j)を最大とする状態を選択する。すなわち、Ψt(j)に従って音素状態が遷移していく。初期演算としてδ1(i)=1とし、繰り返し演算として
【数2】
を実行する。ここで、aijは状態iから状態jへの状態遷移確率であり、Nは歌唱する曲の音韻数によって決まる状態i、jのとりうる最大の状態数である。また、bj(Ot)は特徴ベクトルの時刻tにおけるシンボル発生確率である。各観測シンボルは、歌唱音声から抽出された特徴ベクトルであるから、歌唱者の発声態様によって観測シンボルが異なり、遷移の態様も異なるようになる。
【0039】
図8(b)に示す例では、上記式によって計算された確率を○あるいは△で示している。ここで、○>△である。例えば、時刻tm1から時刻tm3までの観測を踏まえ、状態“Silence”から状態“n1”へのパスが形成される確率は、状態“Silence”から状態“Silence”へのパスが形成される確率よりも高く、時刻tm3におけるベスト確率となり、図中太矢印で示すように状態遷移を決定する。
【0040】
このような演算を歌唱音声の各歌唱フレーム(Fm1、Fm2、…)に対応する時刻(tm1、tm2、…)毎に行う。この結果、図8(c)に例示するように、時刻tm3において状態“Silence”から状態“n1”に遷移し、時刻tm5において状態“n1”から状態“n2”に遷移し、時刻tm9において状態“n2”から状態“n3”に遷移し、時刻tm11において状態“n3”から状態“a1”に遷移する、といった具合に歌唱音声の状態遷移が決定される。
これにより、歌唱音声の各歌唱フレームが、いずれの音素に対応するのかを特定することができる。
【0041】
こうして、歌唱音声の各歌唱フレームが、いずれの音素に対応するのかが特定されると、アライメント部485は、特定された音素に対応する基準音声の基準フレームを特定する。
【0042】
上述したように、隠れマルコフモデルの各状態は音素記述列に基づいて形成されているので、各状態に対応する基準音声の音素毎の基準フレームを特定することができるようになっている。本実施形態では、アライメントとして、基準音声および歌唱音声の対応する音素が同じフレーム同士を、各フレーム毎に時系列で一致させる処理を行う。具体的には、以下の通りである。
【0043】
図8(e)に示す音素記述列は、前掲図2(c)に示した音素記述列である。すなわち、基準音声の基準フレームFt1〜Ft3が音素/Silence/に対応し、基準フレームFt4〜Ft9が音素/n/に対応し、基準フレームFt10〜の基準フレームが音素/a/に対応している。
【0044】
一方、1パスビタビアルゴリズムによって歌唱音声の状態遷移が決定され、この結果、図8(c)に示すように、歌唱音声の歌唱フレームFm1およびFm2が音素/Silence/に対応し、歌唱フレームFm3〜Fm10が音素/n/に対応し、歌唱フレームFm11〜が音素/a/に対応していることが判明したものとする。
【0045】
この結果、図8(d)に示すように、歌唱音声の各歌唱フレームと、基準音声の各基準フレームとを対応付ける(アライメントする)ことができる。具体的には、以下の通りである。
【0046】
まず、音素/Silence/に対応するフレームとして、歌唱音声の歌唱フレームFm1と基準音声の基準フレームFt1とを対応付け、歌唱音声の歌唱フレームFm2と基準音声の基準フレームFt2とを対応付ける。
【0047】
また、図8(c)に示すように、歌唱音声が歌唱フレームFm2からFm3に切換わる際に、状態“Silence”から状態“n1”に遷移しているので、音素/n/に対応する歌唱フレームとしては、歌唱フレームFm3が最初のフレームとなる。一方、基準音声については、音素/n/に対応する基準フレームは、図8(e)に示す音素記述列によれば基準フレームFt4からであるので、歌唱音声の歌唱フレームFm3と、基準音声の基準フレームFm4とを対応付ける。
【0048】
次に、歌唱音声の歌唱フレームFm4においては、新たな音素(図8(c)に示す例においては音素/a/)に移行していないので、歌唱音声の歌唱フレームFm4と、基準音声の基準フレームFt5とを対応付ける。以後同様の処理を繰り返し、歌唱音声の歌唱フレームFm5〜Fm7の各々と、基準音声の基準フレームFt6〜Ft8の各々とを順次対応付けていく。
【0049】
ところで、図8(c)〜(e)に示す例では、歌唱音声の歌唱フレームFm3〜Fm10の8フレームが音素/n/に対応しているのに対して、基準音声の音素/n/に対応しているフレームは基準フレームFt4〜Ft9である。このように、歌唱者が対象者よりも同じ音素を長い時間発声してしまう場合が生じるので、本実施形態では、予め用意したループフレームを用いて基準音声が歌唱音声よりも短い場合の補間を行う。
【0050】
ループフレームは、図8(f)に示すように、音を伸ばして発音する場合のピッチの変化やアンプリチュードの変化を擬似的に再現するためのデータを数フレーム分記憶しており、例えば、基本周波数の差分(ΔPitch)やアンプリチュードの差分(ΔAmp)などから構成される。
そして、基準歌唱情報中には、音素列における各音素の最終フレームにループフレームの呼出しを指示するデータを記述しておく。これにより、歌唱者が基準音声よりも同じ音素を長い時間発声してしまった場合でも、良好にアライメントを行うことができる。
【0051】
一方、上述した各フレーム毎の対応付けに並行して、歌唱音声の各歌唱フレームに対応付けれらた基準音声の基準フレームの基準フレーム番号を検出し、この基準フレーム番号を歌唱位置情報として音程・音量・声質比較部46に出力する。
【0052】
また、アライメント処理部48は、アライメント安定度情報を採点結果演算部50に出力する。以下、アライメント安定度情報について説明する。歌唱者は、演奏される楽曲の本来の歌詞の言葉とは異なる言葉で歌唱する場合もあり得る。例えば、本来の歌詞が「なきながら」であるにも関わらず、歌唱者が「なきならが」と誤って歌ってしまうような場合である。この場合、本来は「ながら」を表す音素列については、音素/n//a/の後、音素/g/に遷移するはずであるが、「ならが」と歌ってしまった場合には音素/n//a/の後に音素/r/に遷移することとなる。すなわち、歌唱者が歌詞を誤って歌ってしまった場合には、本来の遷移すべき音素とは異なる音素に遷移してしまう。すなわち、音素の飛び越しまたは後退が生じることがある。このように、アライメント処理部48内のアライメント部485は、このような音素の飛び越しおよび後退の発生回数を単位時間毎にカウントし、このカウント値をアライメント安定度情報として出力するのである。すなわち、アライメント安定度情報は、歌唱者の歌唱している歌詞と、本来の歌詞との違いの程度を表す情報ということができる。
【0053】
一方、分析部44は、FFT部43から供給される歌唱フレーム毎の歌唱音声信号について、歌唱音程情報、歌唱音量情報およびメルケプストラム係数を算出する。すなわち、例えば、各歌唱フレーム単位の歌唱音声信号の基本周波数を歌唱音程情報とし、各歌唱フレーム単位の歌唱音声信号の平均アンプリチュードを歌唱音量情報とする、といった具合である。そして分析部44は、歌唱音程情報および歌唱音量情報をタイミング比較部45に、歌唱音程情報、歌唱音量情報およびメルケプストラム係数を音程・音量・声質比較部46に、それぞれ出力する。
【0054】
ここで、歌唱音声信号のメルケプストラム係数の算出手順の一例について説明する。まず、分析部44は、FFT部43から供給される歌唱フレーム単位の歌唱音声信号の周波数スペクトルに対し、メルスケール帯域フィルタ群を用いてメルスケールに従った重み付けを施す。ここで、メルスケール帯域フィルタ群は、N個の帯域フィルタから構成され、図9に示すように、各々の帯域フィルタの通過帯域がメルスケール上(または対数周波数軸上)に等間隔に配置されるようになっている。これは、人間の聴覚特性(すなわち、低い周波数においては細かい周波数分解能を有し、高い周波数においては粗い周波数分解能を有する)を考慮して、歌唱音声信号の周波数スペクトルに対してメルスケールに応じた重み付けがなされるようにするためである。この結果得られたメルスケール帯域フィルタ群からのN個の出力信号を用いてケプストラム演算を行うことにより、歌唱音声信号のメルケプストラム係数を求めることができる。このケプストラム演算は、上記メルスケール帯域フィルタ群のうちのk番目の帯域フィルタからの出力信号のエネルギ合計値を|Sk|とすると、
【数3】
によって表される。
【0055】
タイミング処理部45は、分析部44から歌唱音程情報および歌唱音量情報が供給されると、基準歌唱データベース47に記憶された基準音程情報および基準音量情報のうち、演奏が開始された時点からの経過時刻に対応する基準フレームに対応付けられた基準音程情報および基準音量情報を読み出す。そして、各歌唱フレーム単位で順次供給される歌唱音程情報および歌唱音量情報から歌唱音声の立ち上がりタイミング(すなわち、歌唱音声の音程または音量が変化するタイミング)を検出する一方、基準音声の立ち上がりタイミング(すなわち、基準音声の音程または音量が変化するタイミング)を検出する。そして、歌唱音声の立ち上がりタイミングと基準音声の立ち上がりタイミングとを比較し、各タイミングの一致度を表すタイミング比較結果を採点結果演算部50に出力する。
【0056】
一方、音程・音量・声質比較部46は、まず、アライメント処理部48から供給される歌唱位置情報によって指定される基準フレーム番号に対応付けられた基準音程情報、基準音量情報を基準歌唱データベース47から読み出すとともに、当該基準フレームにおける音韻番号に対応付けられたメルケプストラム係数を音韻テーブルから読み出す。つまり、基準音声の各音楽要素のうち、歌唱者による歌唱位置に対応した各音楽要素を読み出すのである。そして、読み出した基準音程情報、基準音量情報およびメルケプストラム係数の各々を、分析部44から供給される歌唱音程情報、歌唱音量情報およびメルケプストラム係数と比較し、各々の比較結果である音程比較結果、音量比較結果および声質比較結果を採点結果演算部50に出力する。具体的には、歌唱音程情報と基準音程情報との差分値を音程比較結果とし、歌唱音量情報と基準音量情報との差分値を音量比較結果とする。また、歌唱音声のメルケプストラム係数CMと基準音声のメルケプストラム係数CTとを用い、
【数4】
なる演算を行うことにより係数DISTspecの値を求め、この値を声質比較結果として出力する。すなわち、このDISTspecの値が大きい程、歌唱音声信号のメルケプストラム係数と基準音声信号のメルケプストラム係数との差が大きい、すなわち、歌唱音声の声質と基準音声の声質とが異なることを意味しており、DISTspecの値が0である場合には、歌唱音声の声質と基準音声の声質とがほぼ一致していることを意味している。
【0057】
採点結果演算部50は、タイミング比較部45から供給されるタイミング比較結果と、音程・音量・声質比較部46から出力される音程比較結果、音量比較結果および声質比較結果と、アライメント処理部48から出力されるアライメント安定度情報とに基づいて歌唱を採点し、各要素毎に採点結果を出力する。具体的には、例えば、数値「100」からタイミング比較結果に応じた数値を減算して歌唱タイミングに関する点数とし、数値「100」から音程比較結果に応じた数値を減算して音程に関する点数とし、数値「100」から音量比較結果に応じた数値を減算して音量に関する点数とする、といった具合である。採点結果表示部51は、採点結果演算部50から供給される採点結果を表示する。
【0058】
このように、本実施形態においては、歌唱者の歌唱位置に対応した基準フレームにおける基準歌唱音声の各音楽要素を、歌唱音声の各音楽要素と比較するようになっているため、例えば歌唱者による歌唱位置が本来の歌唱位置とずれている場合、すなわち、歌唱タイミングがずれている場合であっても、かかる歌唱タイミングのずれの影響を考慮することなく、音程、音量および声質の各音楽要素についてのみの評価を行うことができる。
【0059】
また、本実施形態においては、音程、音量および歌唱タイミングだけでなく、声質も評価の対象としているので、歌唱者の声質と楽曲の歌手の声質との似具合を評価することができる。
【0060】
B:第2実施形態
B−1:第2実施形態の構成
次に、本発明の第2実施形態に係るカラオケ装置の構成を説明する。
上記第1実施形態においては、タイミング比較部45において、歌唱音声の音程および音量とによって導出される歌唱タイミングと、基準音声の音程および音量とによって導出される歌唱タイミングとを比較することにより、歌唱タイミングの評価を行うようにした。これに対し、本実施形態においては、上述したアライメント処理部48に歌唱タイミングを比較する機能を持たせている。
【0061】
図10は、本実施形態に係るカラオケ装置1’の構成を示すブロック図である。なお、図10に示す各部のうち、前掲図1に示したカラオケ装置1の各部と共通する部分については同一の符号を付して、その説明を省略する。図10に示すように、本実施形態に係るカラオケ装置1’は、前掲図1に示したタイミング比較部45を備えておらず、その代わりにアライメント処理部48内のアライメント部485が歌唱タイミングの評価を行う機能を有している。
【0062】
B−2:第2実施形態の動作
続いて、本実施形態の動作について説明する。なお、本実施形態においては、上述した第1実施形態の動作と比較してアライメント処理部48内のアライメント部485の動作のみが異なるので、アライメント部485の動作についてのみ説明し、その他の各部の説明は省略する。
【0063】
アライメント部485は、上記第1実施形態と同様の手順で歌唱位置情報を生成し、音程・音量・声質比較部46に出力するとともに、アライメント安定度情報を生成して採点結果演算部50に出力する。一方、アライメント部485は、歌唱位置情報によって指定される基準音声の基準フレームと、楽曲の演奏開始時点からの経過時刻に対応する基準歌唱の基準フレームとの時間的な差を算出し、この算出結果をタイミング比較結果として採点結果演算部50に出力する。すなわち、このタイミング比較結果には、本来歌唱すべき楽曲中の位置と、実際に歌唱者が歌唱している楽曲中の位置との時間的な差、すなわち、歌唱タイミングの一致度が反映されることとなる。
【0064】
採点結果演算部50は、上記第1実施形態と同様の処理によって音程・音量・声質比較部46から供給される音程比較情報、音量比較情報および声質比較情報と、アライメント処理部48から供給されるタイミング比較結果およびアライメント安定度情報とによって各音楽要素毎の点数を演算する。この演算結果は、採点結果表示部51によって表示される。
【0065】
このように、本実施形態によれば、アライメント処理部48によるアライメント結果に基づいて、歌唱タイミングの評価を行うようになっているので、上述した第1実施形態に係るカラオケ装置1と比較して処理が簡易になる。
【0066】
C:変形例
以上この発明の一実施形態について説明したが、上記実施形態はあくまでも例示であり、上記実施形態に対しては、本発明の趣旨から逸脱しない範囲で様々な変形を加えることができる。変形例としては、例えば以下のようなものが考えられる。
【0067】
<変形例1>
上記各実施形態においては、音程・音量・声質比較部46によって音程の比較結果、音量の比較結果および声質の比較結果を出力するようにしたが、これに加えて、例えば歌唱中のビブラートの評価を行うようにしてもよい。本変形例は、例えば以下の構成とすることにより実現することができる。
【0068】
まず、楽曲データ記憶部31に記憶された各楽曲データ中の、楽曲中のビブラートをかけるべき区間(以下、「ビブラート区間」という)の最初および最後に対応する部分にビブラート区間であることを示すフラグを挿入しておく。
【0069】
一方、音程・音量・声質比較部46は、分析部44から順次供給される歌唱音程情報を複数の歌唱フレームにわたって記憶するメモリを具備している。以下、このようにしてメモリに記憶された複数の音程からなる列を音程列という。また、基準歌唱データベース47に記憶された基準歌唱情報中の各基準フレームのうち、上記ビブラート区間に対応する基準フレーム(通常、ビブラート区間は複数フレームわたる)には、当該基準フレームにおける基準音声のビブラートの強度(基準ビブラート強度)およびビブラートの周波数(基準ビブラート周波数)とが対応付けられている。
【0070】
シーケンサ32は、楽曲データの再生中にビブラート区間の開始を示すフラグを読み出すと、歌唱評価部4内の音程・音量・声質比較部46に対して、ビブラート区間が開始したことを通知する。音程・音量・声質比較部46は、この通知を受けると、それ以後に分析部44から供給される歌唱音程情報を順次メモリに書込む。一方、シーケンサ32は、楽曲データ中のビブラート区間の終了を示すフラグを読み出すと、音程・音量・声質比較部46に対し、ビブラート区間が終了したことを通知する。音程・音量・声質比較部46は、この通知を受けると、その時点までにメモリに記憶された歌唱音程情報を読み出すとともに、各歌唱音程情報が示す音程を時系列的に並べた波形を形成する。そして、音程・音量・声質比較部46は、形成した波形に対してFFTを施す。図11はこの結果得られた周波数スペクトルの一例を示す図である。このような周波数スペクトルが得られると、音程・音量・声質比較部46は、当該周波数スペクトルのピークを検出し、当該ピークにおける強度(歌唱ビブラート強度)とそのピークにおける周波数(歌唱ビブラート周波数)とを検出する。
【0071】
一方、音程・音量・声質比較部43は、基準歌唱データベース47から、上記ビブラート区間に該当する複数フレームに対応した基準ビブラート強度および基準ビブラート周波数を読み出す。そして、上記歌唱ビブラート強度と基準ビブラート強度、および歌唱ビブラート周波数と基準ビブラート周波数とを比較し、この比較結果をビブラート比較結果として採点結果演算部50に出力する。すなわち、この比較結果は、歌唱音声のビブラートと、基準音声のビブラートとの一致度を表している。
【0072】
このビブラート比較結果を受け取った採点結果演算部50は、上述した各音楽要素(歌唱タイミング、音程等)と同様の処理により、ビブラートの一致度に関する採点を行い、採点結果を採点結果表示部51に出力する。この結果、表示結果表示部51には、上述した歌唱タイミング等の採点結果とともに、ビブラートの採点結果が表示される。本変形例によれば、歌唱者による歌唱についてより詳細な採点を行うことができる。
【0073】
<変形例2>
上記各実施形態においては、歌唱音声の声質と基準音声の声質との比較、すなわち各スペクトル形状の比較を、スペクトルマッチング尺度の一種であるメルケプストラム係数を用いて実施するようにしたが、この手法に代えて以下の手法を用いてもよい。
【0074】
すなわち、例えば、歌唱音声のフォルマント周波数と、基準音声のフォルマント周波数とを比較することにより声質の一致度を検出するようにしてもよい。具体的には、歌唱評価部4内の分析部44は、FFT部43から供給される歌唱音声の周波数スペクトルから、1以上のフォルマントにおけるフォルマント周波数を検出して音程・音量・声質比較部46に出力する。一方、基準歌唱データベース47には、基準音声の周波数スペクトルにおける1以上のフォルマントにおけるフォルマント周波数を、各基準フレーム単位で記憶しておく。そして、音程・音量・声質比較部46は、分析部44から出力されるフォルマント周波数と、基準歌唱データベース47に記憶されたフォルマント周波数とを比較して、この比較結果を採点結果演算部50に出力する。これにより、この比較結果に、歌唱音声の声質と基準音声の声質との一致度を反映させることができる。
【0075】
なお、声質の比較方法は、以上示した方法に限られるものではない。例えば、FFT、SMS、ケプストラム分析または線形予測分析等を用いて歌唱音声のスペクトル包絡と基準音声のスペクトル包絡と比較し、声質比較結果としてもよい。
【0076】
<変形例3>
上記各実施形態においては、リアルタイムで採点結果の表示を行うようにしたが、以下のようにしてもよい。すなわち、採点結果演算部50は、各部から供給される各音楽要素毎の比較結果、タイミング比較結果、音程比較結果等を順次メモリに記憶し、楽曲の演奏が終了した際に、当該メモリに記憶された各音楽要素毎の比較結果の平均値を求め、この平均値に基づいて各音楽要素毎の採点を行うようにしてもよい。
【0077】
また、上記実施形態においては、採点結果を文字として表示するようにしたが、採点結果を歌唱者に報知する方法はこれに限られるものではない。例えば、採点結果を音声によって歌唱者に報知するようにしてもよい。
【0078】
<変形例4>
上記各実施形態においては、歌唱位置に対応した基準音声の基準フレームを楽曲の進行に伴って逐次検出し、リアルタイムで採点を行うため、隠れマルコフモデルを用い、1パスビタビアルゴリズムによって歌唱音声の状態遷移を決定するようにした。しかしながら、リアルタイムの採点を行う必要がない場合、例えば、楽曲の演奏終了後に採点結果を表示するような場合等には、歌唱音声と基準音声との時間的位置関係を検出するための手法は、上記手法でなくてもよい。例えば、歌唱音声の歌唱位置と、基準音声のフレームとを対応付けるために、DPマッチング手法(DTW;Dynamic Time Warping)等を用いてもよい。
【0079】
【発明の効果】
以上説明したように、本発明によれば、歌唱者の歌唱位置に対応した基準フレームにおける基準歌唱音声の各音楽要素を、歌唱音声の各音楽要素と比較するようになっているため、歌唱タイミングがずれている場合であっても、かかる歌唱タイミングのずれの影響を考慮することなく、音程、音量および声質の各音楽要素についてのみの評価を行うことができる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態であるカラオケ装置の全体構成を示すブロック図である。
【図2】 (a)は同カラオケ装置における基準歌唱情報の内容を例示する図であり、(b)は音韻テーブルの内容を例示する図であり、(c)は音素記述列の内容を例示する図である。
【図3】 同カラオケ装置におけるアライメント処理部の構成を示すブロック図である。
【図4】 同カラオケ装置における符号帳の内容を説明するための図である。
【図5】 同カラオケ装置において用いられる音素について説明するための図である。
【図6】 同カラオケ装置における確率データの内容を説明するための図である。
【図7】 隠れマルコフモデルについて説明するための図である。
【図8】 同カラオケ装置におけるアライメントの具体例を示す図である。
【図9】 メルスケール帯域フィルタ群の通過帯域を例示する図である。
【図10】 本発明の第2実施形態であるカラオケ装置の全体構成を示すブロック図である。
【図11】 第1および第2実施形態に係るカラオケ装置のビブラート評価について説明するための図である。
【図12】 従来のカラオケ装置における歌唱評価方法を説明するための図である。
【符号の説明】
1,1’……カラオケ装置、2……マイク(音声入力手段)、3……カラオケ処理部、31……楽曲データ記憶部、32……シーケンサ、33……音源、34……ミキサ、35……スピーカ(出力手段)、4……歌唱評価部、41……音声信号切出部、42……分析窓生成部、43……FFT部、44……分析部(分析手段)、45……タイミング比較部(タイミング比較手段)、46……音程・音量・声質比較部(比較手段)、47……基準歌唱データベース(記憶手段)、48……アライメント処理部(アライメント手段)、481……特徴パラメータ分析部、482……ベクトル量子化部、483……音素状態形成部、484……状態遷移決定部、485……アライメント部、50……採点結果演算部(評価手段)、51……採点結果表示部。
Claims (11)
- 基準音声を時間軸上で分割した複数の基準フレーム毎に当該基準音声の音楽要素を記憶する記憶手段と、
歌唱者の歌唱音声を歌唱フレームに順次分割し、分割により得られた歌唱フレームに対応した基準フレームを探索するとともに、基準音声要素に対する歌唱音声音素遷移の飛び越しおよび後退の発生回数であるアライメント安定度を出力するアライメント手段と、
前記分割により得られた歌唱フレームの音楽要素を抽出する分析手段と、
前記分析手段によって抽出された歌唱フレームの音楽要素と、前記アライメント手段によって探索された基準フレームの音楽要素とを比較する比較手段と、
前記比較手段による比較結果と前記アライメント安定度に基づいて歌唱を評価する評価手段とを具備することを特徴とする歌唱評価装置。 - 前記記憶手段に記憶された各基準フレームの音楽要素の時間的変化と、前記分析手段によって抽出された歌唱フレームの音楽要素の時間的変化とを比較することにより、歌唱タイミングの一致度を検出するタイミング比較手段を具備し、
前記評価手段は、前記比較手段およびタイミング比較手段による比較結果に基づいて歌唱を評価すること
を特徴とする請求項1に記載の歌唱評価装置。 - 前記アライメント手段は、
前記歌唱フレームに対応した基準フレームを探索するとともに、探索された基準フレームと、本来歌唱すべき基準フレームとの時間的な差に基づいて歌唱音声と基準音声の歌唱タイミングの一致度を検出し、
前記評価手段は、前記比較手段による比較結果、および前記アライメント手段によって検出された歌唱タイミングの一致度に基づいて歌唱を評価すること
を特徴とする請求項1に記載の歌唱評価装置。 - 前記音楽要素として音程を含むことを特徴とする請求項1〜3のいずれか1の請求項に記載の歌唱評価装置。
- 前記音楽要素として音量を含むことを特徴とする請求項1〜4のいずれか1の請求項に記載の歌唱評価装置。
- 前記音楽要素として声質を含むことを特徴とする請求項1〜5のいずれか1の請求項に記載の歌唱評価装置。
- 前記比較手段は、スペクトルマッチング尺度を用いて前記基準音声の声質と歌唱音声の声質とを比較することを特徴とする請求項6に記載の歌唱評価装置。
- 前記比較手段は、前記基準音声の1以上のフォルマント周波数と歌唱音声の1以上のフォルマント周波数とを比較することを特徴とする請求項6に記載の歌唱評価装置。
- 前記アライメント手段は、歌唱音声の音素と基準音声の音素とを対比することにより各歌唱フレームに対応した基準フレームを探索することを特徴とする請求項1〜8のいずれか1の請求項に記載の歌唱評価装置。
- 前記アライメント手段は、
楽曲の音素列を記憶する音素列記憶手段と、
歌唱音声の代表的なパラメータを特徴ベクトルとして所定数のシンボルにクラスタ化した符号帳と、各音素毎の状態遷移確率および前記各シンボルの観測確率とを記憶する音素情報記憶手段と、
前記分割により得られた歌唱フレームを特徴パラメータ分析し、前記音素情報記憶手段に記憶された符号帳に基づいて当該歌唱フレームの特徴パラメータをシンボル量子化して当該歌唱フレームの観測シンボルとする量子化手段と、
前記音素情報記憶手段に記憶された状態遷移確率および観測確率に基づいて、前記音素列記憶手段に記憶された音素列の各状態を有限状態ネットワーク上で隠れマルコフモデルによって形成する状態形成手段と、
前記量子化手段によって量子化された観測シンボルと、前記状態形成手段によって形成された前記隠れマルコフモデルに従って、1パスビタビアルゴリズムによって状態遷移を決定する状態遷移決定手段と、
決定した前記歌唱音声の状態遷移に基づいて、各歌唱フレームに対応した基準フレームを探索する探索手段と
を具備することを特徴とする請求項1〜9のいずれか1の請求項に記載の歌唱評価装置。 - 請求項1〜10のいずれか1の請求項に記載の歌唱評価装置と、
前記歌唱音声を入力するための音声入力手段と、
楽曲データに従って楽音信号を生成して出力する音源と、
前記歌唱音声および楽音信号を音として出力する出力手段と
を具備することを特徴とするカラオケ装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30027499A JP4205824B2 (ja) | 1999-10-21 | 1999-10-21 | 歌唱評価装置およびカラオケ装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30027499A JP4205824B2 (ja) | 1999-10-21 | 1999-10-21 | 歌唱評価装置およびカラオケ装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001117568A JP2001117568A (ja) | 2001-04-27 |
JP4205824B2 true JP4205824B2 (ja) | 2009-01-07 |
Family
ID=42169511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30027499A Expired - Fee Related JP4205824B2 (ja) | 1999-10-21 | 1999-10-21 | 歌唱評価装置およびカラオケ装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4205824B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2403662B (en) * | 2003-07-09 | 2008-01-16 | Sony Comp Entertainment Europe | Game processing |
JP4612329B2 (ja) * | 2004-04-28 | 2011-01-12 | 株式会社テクノフェイス | 情報処理装置およびプログラム |
JP4524634B2 (ja) * | 2005-03-02 | 2010-08-18 | 株式会社国際電気通信基礎技術研究所 | 歌声評定装置およびプログラム |
EP1727123A1 (en) | 2005-05-26 | 2006-11-29 | Yamaha Corporation | Sound signal processing apparatus, sound signal processing method and sound signal processing program |
JP4862413B2 (ja) * | 2006-01-31 | 2012-01-25 | ヤマハ株式会社 | カラオケ装置 |
JP4520952B2 (ja) * | 2006-02-14 | 2010-08-11 | セイコーインスツル株式会社 | 音楽練習支援機器 |
JP4124247B2 (ja) * | 2006-07-05 | 2008-07-23 | ヤマハ株式会社 | 楽曲練習支援装置、制御方法及びプログラム |
JP2008020677A (ja) * | 2006-07-13 | 2008-01-31 | Casio Comput Co Ltd | 歌唱採点装置および歌唱採点プログラム |
JP2008139426A (ja) * | 2006-11-30 | 2008-06-19 | Yamaha Corp | 評価用データのデータ構造、カラオケ装置及び記録媒体 |
JP4913638B2 (ja) * | 2007-03-13 | 2012-04-11 | ヤマハ株式会社 | 評価装置及びカラオケ装置 |
JP4493678B2 (ja) * | 2007-03-27 | 2010-06-30 | 株式会社コナミデジタルエンタテインメント | ゲーム装置、ゲーム処理方法、ならびに、プログラム |
JP4900017B2 (ja) * | 2007-04-17 | 2012-03-21 | ヤマハ株式会社 | ビブラート検出装置、ビブラート評価装置、ビブラート検出方法、ビブラート評価方法およびプログラム |
JP4983958B2 (ja) * | 2010-04-27 | 2012-07-25 | カシオ計算機株式会社 | 歌唱採点装置および歌唱採点プログラム |
JP5310801B2 (ja) * | 2011-07-12 | 2013-10-09 | ヤマハ株式会社 | 音声合成装置および音声合成プログラム |
JP5246354B2 (ja) * | 2012-01-18 | 2013-07-24 | カシオ計算機株式会社 | 歌唱採点装置および歌唱採点プログラム |
JP6075314B2 (ja) * | 2014-03-24 | 2017-02-08 | ブラザー工業株式会社 | プログラム,情報処理装置,及び評価方法 |
CN113782059B (zh) * | 2021-09-24 | 2024-03-22 | 苏州声通信息科技有限公司 | 乐器音频评测方法及装置、非瞬时性存储介质 |
CN114093386B (zh) * | 2021-11-10 | 2024-06-25 | 厦门大学 | 一种面向教育的多维度歌唱评价方法 |
CN114550676A (zh) * | 2022-02-24 | 2022-05-27 | 百果园技术(新加坡)有限公司 | 一种唱歌检测方法、装置、设备及存储介质 |
CN114678039B (zh) * | 2022-04-13 | 2025-01-24 | 厦门大学 | 一种基于深度学习的歌唱评价方法 |
CN119181383B (zh) * | 2024-11-20 | 2025-02-18 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种多维度评估歌唱水平的方法及系统 |
-
1999
- 1999-10-21 JP JP30027499A patent/JP4205824B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001117568A (ja) | 2001-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4205824B2 (ja) | 歌唱評価装置およびカラオケ装置 | |
Mesaros et al. | Automatic recognition of lyrics in singing | |
US8618402B2 (en) | Musical harmony generation from polyphonic audio signals | |
Muller et al. | Signal processing for music analysis | |
Durrieu et al. | A musically motivated mid-level representation for pitch estimation and musical audio source separation | |
Eronen | Automatic musical instrument recognition | |
US8005666B2 (en) | Automatic system for temporal alignment of music audio signal with lyrics | |
Soulez et al. | Improving polyphonic and poly-instrumental music to score alignment | |
US5521324A (en) | Automated musical accompaniment with multiple input sensors | |
US20050086052A1 (en) | Humming transcription system and methodology | |
CN112331222A (zh) | 一种转换歌曲音色的方法、系统、设备及存储介质 | |
Oudre et al. | Chord recognition by fitting rescaled chroma vectors to chord templates | |
Mesaros | Singing voice identification and lyrics transcription for music information retrieval invited paper | |
JP4323029B2 (ja) | 音声処理装置およびカラオケ装置 | |
Nakano et al. | A drum pattern retrieval method by voice percussion | |
JP4364977B2 (ja) | 音声変換装置及び方法 | |
Wada et al. | Sequential generation of singing f0 contours from musical note sequences based on wavenet | |
JP5292702B2 (ja) | 楽音信号生成装置及びカラオケ装置 | |
JP6098422B2 (ja) | 情報処理装置、及びプログラム | |
Ikemiya et al. | Transcribing vocal expression from polyphonic music | |
Shenoy et al. | Singing voice detection for karaoke application | |
Villavicencio et al. | Efficient pitch estimation on natural opera-singing by a spectral correlation based strategy | |
Mesaros | Singing voice recognition for music information retrieval | |
Holzapfel et al. | Similarity methods for computational ethnomusicology | |
JP4367436B2 (ja) | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081014 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081017 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111024 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131024 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |