JP4205824B2

JP4205824B2 - 歌唱評価装置およびカラオケ装置

Info

Publication number: JP4205824B2
Application number: JP30027499A
Authority: JP
Inventors: 保夫 ▲蔭▼山; ケイノペドロ; ロスコスアレックス
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1999-10-21
Filing date: 1999-10-21
Publication date: 2009-01-07
Anticipated expiration: 2019-10-21
Also published as: JP2001117568A

Description

【０００１】
【発明の属する技術分野】
本発明は、歌唱の巧拙を評価可能な歌唱評価装置およびこれを用いたカラオケ装置に関する。
【０００２】
【従来の技術】
従来より、歌唱者の歌唱の巧拙を評価する歌唱評価機能を備えた各種のカラオケ装置が提供されている。
この種のカラオケ装置として、例えば、歌唱者が歌うべきメロディの音程や音量等を指定する情報を含む基準歌唱情報（例えばＭＩＤＩデータ）等が記憶されたメモリと、マイクから入力された歌唱音声の音程および音量等を抽出する抽出部と、上記メモリに記憶された音程および音量と上記抽出部によって抽出された歌唱音声の音程および音量とを比較し、この比較結果に基づいて歌唱を評価する評価部とを具備したカラオケ装置が知られている。
【０００３】
図１２は、上記従来のカラオケ装置における音程の評価方法を示す概念図である。同図において、横軸は時間、縦軸は周波数（音程）をそれぞれ表している。また、図中の太線は基準歌唱情報によって指定される音程の時間的変化を表しており、細線は歌唱音声から抽出された音程の時間的変化を表している。同図に示すように、このカラオケ装置においては、音程情報によって指定される音程と歌唱音声の音程とが、一定時間（例えば５０ｍｓ）毎に到来する評価タイミングにおいて比較され、この比較結果に基づいて歌唱の巧拙が評価されるようになっている。例えば、図中の評価タイミングＴｋ１においては、音程情報によって指定される音程と、歌唱音声の音程とが概ね一致しているため、音程については高い評価が得られることとなる。
【０００４】
【発明が解決しようとする課題】
しかしながら、上述した評価方法においては以下に示す問題点がある。例えば、図１２中の評価タイミングＴｋ２の近傍においては、歌唱音声の音程および基準音声の音程がともに変化している。ここで、歌唱音声の変化前の音程は、基準歌唱音声の変化前の音程と概ね一致しており、歌唱音声の変化後の音程は、基準歌唱音声の変化後の音程と概ね一致している。それにもかかわらず、歌唱音声の音程の変化のタイミングが、音程情報が示す音程の変化のタイミングとずれているため、図中の評価タイミングＴｋ２における評価では、音程が大きくずれているものと判断され、評価が低くなってしまうという問題がある。
【０００５】
ここで、一般に、感情を込めて歌った場合には、歌唱のタイミングが実際のメロディとずれてしまう場合がある。また、歌唱のタイミングを意図的にずらした方が上手く聞こえる場合があるものである。しかしながら、上述したように、上記評価方法では、このような意図的なタイミングのずれを正当に評価できない。すなわち、音程情報が示す音程と正確に一致するように、感情を込めることなく機械的に歌唱した方が高い評価が得られるのである。このように、従来のカラオケ装置においては、実際の歌唱の巧拙が評価結果に的確に反映されているとはいえなかった。
【０００６】
本発明は、以上説明した事情に鑑みてなされたものであり、歌唱の巧拙を的確に評価することができる歌唱評価装置およびこれを用いたカラオケ装置を提供することを目的としている。
【０００７】
【課題を解決するための手段】
上述した課題を解決するために、請求項１に記載の歌唱評価装置は、基準音声を時間軸上で分割した複数の基準フレーム毎に当該基準音声の音楽要素を記憶する記憶手段と、歌唱者の歌唱音声を歌唱フレームに順次分割し、分割により得られた歌唱フレームに対応した基準フレームを探索するとともに、基準音声要素に対する歌唱音声音素遷移の飛び越しおよび後退の発生回数であるアライメント安定度を出力するアライメント手段と、前記分割により得られた歌唱フレームの音楽要素を抽出する分析手段と、前記分析手段によって抽出された歌唱フレームの音楽要素と、前記アライメント手段によって探索された基準フレームの音楽要素とを比較する比較手段と、前記比較手段による比較結果と前記アライメント安定度に基づいて歌唱を評価する評価手段とを具備することを特徴としている。
また、請求項２に記載の歌唱評価装置は、請求項１に記載の構成において、前記記憶手段に記憶された各基準フレームの音楽要素の時間的変化と、前記分析手段によって抽出された歌唱フレームの音楽要素の時間的変化とを比較することにより、歌唱タイミングの一致度を検出するタイミング比較手段を具備し、前記評価手段は、前記比較手段およびタイミング比較手段による比較結果に基づいて歌唱を評価することを特徴としている。
また、請求項３に記載の歌唱評価装置は、請求項１に記載の構成において、前記アライメント手段は、前記歌唱フレームに対応した基準フレームを探索するとともに、探索された基準フレームと、本来歌唱すべき基準フレームとの時間的な差に基づいて歌唱音声と基準音声の歌唱タイミングの一致度を検出し、前記評価手段は、前記比較手段による比較結果、および前記アライメント手段によって検出された歌唱タイミングの一致度に基づいて歌唱を評価することを特徴としている。
請求項４に記載の歌唱評価装置は、請求項１〜３のいずれか１の請求項に記載の構成において、前記音楽要素として音程を含むことを特徴としている。
請求項５に記載の歌唱評価装置は、請求項１〜４のいずれか１の請求項に記載の構成において、前記音楽要素として音量を含むことを特徴としている。
請求項６に記載の歌唱評価装置は、請求項１〜５のいずれか１の請求項に記載の構成において、前記音楽要素として声質を含むことを特徴としている。
また、請求項７に記載の歌唱評価装置は、請求項６に記載の構成において、前記比較手段は、スペクトルマッチング尺度を用いて前記基準音声の声質と歌唱音声の声質とを比較することを特徴としている。
請求項８に記載の歌唱評価装置は、請求項６に記載の構成において、前記比較手段は、前記基準音声の１以上のフォルマント周波数と歌唱音声の１以上のフォルマント周波数とを比較することを特徴としている。
また、請求項９に記載の歌唱評価装置は、請求項１〜８のいずれか１の請求項に記載の構成において、前記アライメント手段は、歌唱音声の音素と基準音声の音素とを対比することにより各歌唱フレームに対応した基準フレームを探索することを特徴としている。
請求項１０に記載の歌唱評価装置は、請求項１〜９のいずれか１の請求項に記載の構成において、前記アライメント手段は、楽曲の音素列を記憶する音素列記憶手段と、歌唱音声の代表的なパラメータを特徴ベクトルとして所定数のシンボルにクラスタ化した符号帳と、各音素毎の状態遷移確率および前記各シンボルの観測確率とを記憶する音素情報記憶手段と、前記分割により得られた歌唱フレームを特徴パラメータ分析し、前記音素情報記憶手段に記憶された符号帳に基づいて当該歌唱フレームの特徴パラメータをシンボル量子化して当該歌唱フレームの観測シンボルとする量子化手段と、前記音素情報記憶手段に記憶された状態遷移確率および観測確率に基づいて、前記音素列記憶手段に記憶された音素列の各状態を有限状態ネットワーク上で隠れマルコフモデルによって形成する状態形成手段と、前記量子化手段によって量子化された観測シンボルと、前記状態形成手段によって形成された前記隠れマルコフモデルに従って、１パスビタビアルゴリズムによって状態遷移を決定する状態遷移決定手段と、決定した前記歌唱音声の状態遷移に基づいて、各歌唱フレームに対応した基準フレームを探索する探索手段とを具備すること特徴としている。
【０００８】
また、本発明は、請求項１〜１０のいずれか１の請求項に記載の歌唱評価装置と、
前記歌唱音声を入力するための音声入力手段と、
楽曲データに従って楽音信号を生成して出力する音源と、
前記歌唱音声および楽音信号を音として出力する出力手段と
を具備することを特徴とするカラオケ装置を提供するものである。
【０００９】
【発明の実施の形態】
以下、図面を参照して、本発明の実施形態について説明する。なお、以下に示す実施形態においては、本発明に係る歌唱評価装置をカラオケ装置に適用した場合を例に説明する。かかる実施の形態は、本発明の一態様を示すものであり、この発明を限定するものではなく、本発明の範囲内で任意に変更可能である。
【００１０】
Ａ：第１実施形態
Ａ−１：第１実施形態の構成
図１は、本発明の第１実施形態であるカラオケ装置１の全体構成を示すブロック図である。同図に示すように、このカラオケ装置１は、歌唱者が発する歌唱音声を電気信号（以下、「歌唱音声信号」という）に変換して出力するマイク２と、楽曲の伴奏の演奏等を行うカラオケ処理部３と、歌唱者による歌唱の巧拙を評価して評価結果を歌唱者に報知する歌唱評価部４とにより構成されている。
【００１１】
カラオケ処理部３は、ＭＩＤＩデータや時間データおよび歌詞データなどを含む複数の楽曲データを記憶した楽曲データ記憶部３１と、歌唱者によって指定された楽曲データ中のＭＩＤＩデータを時間データに従って再生するシーケンサ３２と、シーケンサ３２の出力信号に従って伴奏音等の楽音信号を生成する音源３３と、この楽音信号とマイク２から供給される歌唱音声信号とをミキシングして出力するミキサ３４と、ミキサ３４の出力信号を音として出力するスピーカ３５とを具備している。
【００１２】
歌唱評価部４は、音声信号切出部４１、分析窓生成部４２、ＦＦＴ（高速フーリエ変換）部４３、分析部４４、タイミング比較部４５、音程・音量・声質比較部４６、基準歌唱データベース４７、アライメント処理部４８、音素辞書記憶部４９、採点結果演算部５０および採点結果表示部５１を備えている。
【００１３】
基準歌唱データベース４７には、基準音声に関する各種情報、すなわち、基準歌唱情報、音韻テーブルおよび音素記述列が記憶されている。基準歌唱情報および音素記述列は、上記楽曲データ記憶部３１に記憶された複数の楽曲の各々に対応して記憶されている。一方、音韻テーブルは、各楽曲の歌手の各々に対応して記憶されている。
【００１４】
ここで、図２（ａ）を参照して、基準歌唱データベース４７に記憶された基準歌唱情報について説明する。この基準歌唱情報は、ある楽曲の歌手による歌唱音声（以下、「基準音声」という）を楽曲の開始時点から一定時間間隔（以下、「基準フレーム」という）毎に区切り、各基準フレーム毎に基準音声の音程、音量および音韻を求めて得られたものである。具体的には、この基準歌唱情報は、図２（ａ）に示すように、いずれかの基準フレームを特定するための基準フレーム番号（Ｆｔ１、Ｆｔ２、…）と、各基準フレーム単位で区切られた基準音声の基本周波数を表す基準音程情報（Ｐ４、Ｐ５等）と、各基準フレーム単位で区切られた基準音声の平均アンプリチュードを表す基準音量情報（Ａ３、Ａ４等）と、音韻番号とにより構成されている。また、音韻番号は、「０」〜「２５６」のいずれかの数値である。なお、基準音程情報が「０」である基準フレームは、歌手による歌唱がない基準フレームまたは無声子音（息継ぎの音などの周期性のない音）のみの基準フレームである。
【００１５】
また、基準歌唱データベース４７に記憶された音韻テーブルは、図２（ｂ）に示すように、上述した基準歌唱情報中の音韻番号（０〜２５６）と、各音韻番号に対応付けられたメルケプストラム係数とにより構成されている。このメルケプストラム係数は、基準音声のスペクトル形状、すなわち声質を少ないパラメータで表すことのできる係数である。このように、上述した基準歌唱情報中の音韻番号は、音韻テーブル中のメルケプストラム係数のうちのいずれかを指定するための番号となっている。
【００１６】
基準歌唱データベース４７に記憶された音素記述列は、図２（ｃ）に示すように、演奏対象となる楽曲の歌詞に対応して音素を並べた音素列と、音素列を構成する各音素に対応する基準フレーム（通常、１の音素に対して複数の基準フレームが対応している）の基準フレーム番号とにより構成されている。例えば、図２（ｃ）に示す例においては、基準フレームＦｔ１〜Ｆｔ３が音素/Ｓｉｌｅｎｃｅ/に対応しており、基準フレームＦｔ４〜Ｆｔ９が音素/ｎ/に対応しており、基準フレームＦｔ１０〜が音素/ａ/に対応している。
【００１７】
再び図１において、分析窓生成部４２は、上述した基準音声の基準フレームと同じ時間的長さを有する分析窓（例えばハミング窓）を生成して音声信号切出部４１に出力する。音声信号切出部４１は、この分析窓生成部４２から供給される分析窓と、マイク２から入力される歌唱音声信号とを掛け合わせて出力する。すなわち、音声信号切出部４１は、歌唱音声信号をフレーム単位で切り出して、ＦＦＴ部４３に出力する。以下では、歌唱音声の各フレームを歌唱フレーム（Ｆｍ１、Ｆｍ２、…）と呼ぶ。ＦＦＴ部４３は、音声信号切出部４１から出力される各歌唱フレーム単位の歌唱音声信号に対してＦＦＴを施し、分析部４４およびアライメント処理部４８に出力する。
【００１８】
アライメント処理部４８は、歌唱者が楽曲中のどの部分を歌っているのかを求めるための手段である。具体的には、アライメント処理部４８は、歌唱者の歌唱位置と基準音声信号の基準フレームとの時間的位置関係を判別し、歌唱者が歌っている部分が、基準音声のうちのどの基準フレームに該当するのかを表す歌唱位置情報を生成するための処理を行う。すなわち、歌唱者による歌唱のタイミングが、本来の歌唱のタイミング（すなわち、基準音声の歌唱タイミング）とずれている場合であっても、歌唱者が歌っている部分（歌唱フレーム）が、基準音声の基準フレームのうちのいずれの基準フレームに該当するのかを判別できるようになっている。
【００１９】
ここで、図３を参照して、アライメント処理部４８の詳細な構成について説明する。
同図に示すように、アライメント処理部４８は、特徴パラメータ分析部４８１、シンボル量子化部４８２、音素列状態形成部４８３、状態遷移決定部４８４およびアライメント部４８５により構成されている。
【００２０】
特徴パラメータ分析部４８１は、ＦＦＴ部４３の出力信号から歌唱音声のスペクトル特性を特徴づける特徴パラメータを抽出し、シンボル量子化部４８２に出力する。本実施形態においては、特徴パラメータとして、メルケプストラム係数、差分メルケプストラム係数、エネルギ係数、差分エネルギ係数、ボイスネス（有声音尤度）係数の５種類のパラメータを用いる。なお、差分メルケプストラム係数とは、直前の歌唱フレームと現在の歌唱フレームとのメルケプストラム係数の差分値を示す。また、差分エネルギ係数とは、直前の歌唱フレームと現在の歌唱フレームとのエネルギの差分値を示す。ボイスネス係数とは、ゼロ交差数およびピッチ検出を行うときに求まる検出誤差値等から総合的に求められる値、あるいは、総合的に重み付けして求められる値であり、有声音らしさを表す数値である。
【００２１】
シンボル量子化部４８２は、音素辞書記憶部４９に記憶された符号帳（詳細は後述する）を参照して、特徴パラメータ分析部４８１から供給される歌唱フレーム毎の特徴パラメータに対し、最大尤度をもつ特徴シンボルを選び出し、状態遷移決定部４８４に出力する。
【００２２】
音素列状態形成部４８３は、基準歌唱データベース４７に記憶された音素記述列に基づいて隠れマルコフモデルによる音素列の形成を行う。状態遷移決定部４８４は、シンボル量子化部４８２から供給される歌唱フレーム単位の特徴シンボルを用いて、後述する１パスビタビ（Viterbi）アルゴリズムに従って歌唱音声の状態遷移を決定する。アライメント部４８５は、状態遷移決定部４８４によって決定された状態遷移に基づいて、歌唱音声の音素と基準音声の音素とをフレーム単位で対応付け、歌唱音声の歌唱フレームに対応する基準音声の基準フレームを探索し、当該基準フレームの基準フレーム番号を歌唱位置情報として出力する。
【００２３】
音素辞書記憶部４９には、符号帳および確率データが記憶されている。
符号帳は、図４に示すように、音声信号の代表的な特徴パラメータを特徴ベクトルとして所定数のシンボルにクラスタ化したものである。すなわち、この符号帳は、歌唱音声信号を各種特徴ベクトル（メルケプストラム係数、差分メルケプストラム係数、エネルギ係数、差分エネルギ係数、ボイスネス（有声音尤度）係数）にベクトル量子化するために用いられる。
【００２４】
ここで、図４を参照しつつ、本実施形態において用いる特徴ベクトルについて説明する。
▲１▼メルケプストラム係数（ｂ_MEL）
メルケプストラム係数は、音声のスペクトル特性を少ない次数で表す係数であり、本実施形態では１２次元ベクトルとして１２８シンボルにクラスタ化されている。
▲２▼差分メルケプストラム係数（ｂ_deltaMEL）
差分メルケプストラム係数は、直前の歌唱フレームと現在の歌唱フレームとのメルケプストラム係数の差分値を表す係数であり、本実施形態では１２次元ベクトルとして１２８シンボルにクラスタ化されている。
▲３▼エネルギ係数（ｂ_ENERGY）
エネルギ係数は、音声の強さを表す係数であり、本実施形態では１次元ベクトルとして３２シンボルにクラスタ化されている。
▲４▼差分エネルギ係数（ｂ_deltaENERGY）
差分エネルギ係数は、直前の歌唱フレームと現在の歌唱フレームとのエネルギ係数の差分値を表す係数であり、１次元ベクトルとして３２シンボルにクラスタ化されている。
▲５▼ボイスネス（ｂ_VOICENESS）
ボイスネス係数は、有声音らしさを表す特徴ベクトルであり、ゼロクロス率およびピッチエラーで特徴づける２次元ベクトルとして３２シンボルにクラスタ化されている。
以上が本実施形態において用いる特徴ベクトルである。
【００２５】
次に、音素辞書記憶部４９に記憶された確率データについて説明する。
本実施形態では、音声をモデル化するためのサブワード単位としてＰＬＵ（疑似音素単位）を用いる。具体的には、図５に示すように、日本語を２７の音素単位で扱うものとし、各音素には状態数が対応付けられている。状態数とは、サブワード単位の持続する最も短い基準フレーム数をいう。例えば音素/ａ/の状態数は「３」であるので、音素/ａ/は少なくとも３つの基準フレームにわたって続くことを意味する。
【００２６】
３状態の各々は、発音の立ち上がり・定常状態・リリース状態を擬似的に表したものである。音素/ｂ/や/ｇ/などの破裂音は、本来持つ音韻が短いので２状態に設定されており、息継ぎ（ASPIRATION）も２状態に設定されている。そして、無音（SILENCE）は、時間的変動がないので１状態に設定されている。確率データには、図６に示すように、サブワード単位で表される２７の音素に対して、各状態の遷移確率と、各特徴ベクトルのシンボルに対する観測シンボル発生確率とが記述されている。
【００２７】
再び図１において、分析部４４は、ＦＦＴ部４３から供給される歌唱フレーム毎の歌唱音声信号を分析し、歌唱音声の音程を表す歌唱音程情報と、歌唱音声の音量を表す歌唱音量情報と、当該歌唱音声のメルケプストラム係数とを算出する。分析部４４によって生成された歌唱音程情報および歌唱音量情報はタイミング比較部４５に出力される一方、歌唱音程情報、歌唱音量情報およびメルケプストラム係数は音程・音量・声質比較部４６に出力される。
【００２８】
タイミング比較部４５は、分析部４４から順次供給される歌唱音程情報および歌唱音量情報と、上記基準歌唱データベース４７中の基準音程情報および基準音量情報とを比較することにより、歌唱音声の歌唱タイミングと基準音声の歌唱タイミングとの一致度を検出し、この一致度を表すタイミング比較結果を採点結果演算部５０に出力する。音程・音量・声質比較部４６は、歌唱音声の各歌唱フレーム毎の音楽要素（音程、音量および声質）と、当該歌唱フレームに対応する基準音声の基準フレームの音楽要素とを比較し、比較結果を採点結果演算部５０に出力する。
【００２９】
採点結果演算部５０は、タイミング比較部４５から供給されるタイミング比較結果と、音程・音量・声質比較部４６から供給される比較結果と、アライメント処理部４８から供給されるアライメント安定度情報とに基づいて、当該歌唱の採点を行い、採点結果を採点結果表示部５１に出力する。なお、本実施形態においては、タイミング、音程、音量、声質およびアライメントの各々について、個別に採点を行うものとする。採点結果表示部５１は、例えばＣＲＴまたは液晶ディスプレイ装置等の表示装置を備えており、採点結果演算部５０から供給される各採点結果を表示する。ここで、採点結果演算部５０には、歌唱フレーム毎にタイミング比較結果等が供給されて各音楽要素毎の採点結果が出力されるため、採点結果表示部５１に表示される点数は、歌唱フレーム毎にリアルタイムに変化することとなる。
【００３０】
Ａ−２：第１実施形態の動作
次に、本実施形態の動作について説明する。
まず、ユーザが図示しない操作部に対して所定の操作を行うことにより、いずれかの楽曲を選択するとともに楽曲の開始を指示すると、シーケンサ３２は当該楽曲に対応した楽曲データ中のＭＩＤＩデータを時間データに従って音源３３に出力する。
【００３１】
マイク２から入力された歌唱音声信号は、ミキサ３４と、歌唱評価部４内の歌唱音声切出部４１とに出力される。ミキサ３４は、音源３３から出力される楽音信号と、マイク２から入力された歌唱音声信号とをミキシングして出力する。この出力信号はスピーカ３５から音として出力される。
【００３２】
一方、音声信号切出部４１は、マイク２から供給される歌唱音声信号と、分析窓生成部４２から供給される分析窓とを掛け合わせることにより、歌唱音声信号を歌唱フレーム単位で切り出して出力する。ＦＦＴ部４３は、この音声信号切出部４１からの出力信号に対してＦＦＴを施し、分析部４４およびアライメント処理部４８に出力する。
【００３３】
次に、前掲図３に示したアライメント処理部４８内の各部の動作について説明する。
まず、特徴パラメータ分析部４８１は、ＦＦＴ部４３から供給される各歌唱フレーム毎の周波数スペクトルに対して特徴パラメータ解析を行い、各特徴パラメータを出力する。シンボル量子化部４８２は、音素辞書記憶部４９に記憶された符号帳に含まれる特徴シンボルのうち、特徴パラメータ分析部４８１から供給される各特徴パラメータに対して最大尤度を持つ特徴シンボルを各特徴ベクトル毎に選び出し、選び出した特徴シンボルを状態遷移決定部４８４に出力する。
【００３４】
一方、音素列状態形成部４８３は、音素辞書記憶部４９に記憶された確率データに含まれる状態遷移確率と基準歌唱データベース４７に記憶された音素記述列に基づいて、隠れマルコフモデルによる音素の状態形成を行う（図８（ａ）参照）。
【００３５】
ここで、図７を参照して、隠れマルコフモデル（ＨＭＭ）について説明する。なお、音声の状態は一方向へ遷移するので、left to right型のモデルを用いている。
時刻ｔにおいて、状態がｉからｊへ遷移する確率（状態遷移離散確率）をａ_ijと表す。すなわち、図７に示す例では、状態▲１▼にとどまる確率をａ₁₁と表し、状態▲１▼から状態▲２▼へ遷移する確率をａ₁₂と表している。
【００３６】
各状態の中には特徴ベクトルがそれぞれ存在し、各々に異なる観測シンボルがある。これをＸ＝{ｘ₁、ｘ₂、…、ｘ_T}と表す。
そして、時刻ｔにおいて状態がｊであるときに特徴ベクトルのシンボルｘｔを発生させる確率（観測シンボル離散確率）をｂ_j（ｘ_t）と表す。
モデルλにおいて、時刻Ｔまでの状態系列をＱ＝{ｑ₁、ｑ₂、…、ｑ_T}とすると、観測シンボル系列Ｘと状態系列Ｑとの同時発生確率は、次式で表せる。
【数１】

観測シンボル系列は判っているが、状態系列は観測し得ないという理由で、このようなモデルが隠れマルコフモデル（ＨＭＭ）と呼ばれている。本実施形態では、基準歌唱データベース４７に記憶された音素記述列に基づいて、図７に示すようなＦＮＳ（有限状態ネットワーク）を音素単位で形成する。
【００３７】
さて、状態遷移決定部４８４は、音素列状態形成部４８３によって形成された隠れマルコフモデルと、シンボル量子化部４８２から供給される歌唱フレーム単位の各特徴シンボルを用い、１パスビタビアルゴリズムによって歌唱音声の状態遷移を決定する。すなわち、歌唱音声の各歌唱フレームが、いずれの音素に対応するのかを特定する。
【００３８】
ここで、１パスビタビアルゴリズムについて説明する。
下記式におけるΨ_t（ｊ）は、時刻ｔに対応する歌唱フレームまでの観測を踏まえて算出した、１つのパスを経由して得られる時刻ｔの歌唱フレームにおけるベスト確率δ_t（ｊ）を最大とする状態を選択する。すなわち、Ψ_t（ｊ）に従って音素状態が遷移していく。初期演算としてδ₁（ｉ）＝１とし、繰り返し演算として
【数２】

を実行する。ここで、ａ_ijは状態ｉから状態ｊへの状態遷移確率であり、Ｎは歌唱する曲の音韻数によって決まる状態ｉ、ｊのとりうる最大の状態数である。また、ｂ_j（Ｏ_t）は特徴ベクトルの時刻ｔにおけるシンボル発生確率である。各観測シンボルは、歌唱音声から抽出された特徴ベクトルであるから、歌唱者の発声態様によって観測シンボルが異なり、遷移の態様も異なるようになる。
【００３９】
図８（ｂ）に示す例では、上記式によって計算された確率を○あるいは△で示している。ここで、○＞△である。例えば、時刻ｔｍ１から時刻ｔｍ３までの観測を踏まえ、状態“Ｓｉｌｅｎｃｅ”から状態“ｎ１”へのパスが形成される確率は、状態“Ｓｉｌｅｎｃｅ”から状態“Ｓｉｌｅｎｃｅ”へのパスが形成される確率よりも高く、時刻ｔｍ３におけるベスト確率となり、図中太矢印で示すように状態遷移を決定する。
【００４０】
このような演算を歌唱音声の各歌唱フレーム（Ｆｍ１、Ｆｍ２、…）に対応する時刻（ｔｍ１、ｔｍ２、…）毎に行う。この結果、図８（ｃ）に例示するように、時刻ｔｍ３において状態“Ｓｉｌｅｎｃｅ”から状態“ｎ１”に遷移し、時刻ｔｍ５において状態“ｎ１”から状態“ｎ２”に遷移し、時刻ｔｍ９において状態“ｎ２”から状態“ｎ３”に遷移し、時刻ｔｍ１１において状態“ｎ３”から状態“ａ１”に遷移する、といった具合に歌唱音声の状態遷移が決定される。
これにより、歌唱音声の各歌唱フレームが、いずれの音素に対応するのかを特定することができる。
【００４１】
こうして、歌唱音声の各歌唱フレームが、いずれの音素に対応するのかが特定されると、アライメント部４８５は、特定された音素に対応する基準音声の基準フレームを特定する。
【００４２】
上述したように、隠れマルコフモデルの各状態は音素記述列に基づいて形成されているので、各状態に対応する基準音声の音素毎の基準フレームを特定することができるようになっている。本実施形態では、アライメントとして、基準音声および歌唱音声の対応する音素が同じフレーム同士を、各フレーム毎に時系列で一致させる処理を行う。具体的には、以下の通りである。
【００４３】
図８（ｅ）に示す音素記述列は、前掲図２（ｃ）に示した音素記述列である。すなわち、基準音声の基準フレームＦｔ１〜Ｆｔ３が音素/Ｓｉｌｅｎｃｅ/に対応し、基準フレームＦｔ４〜Ｆｔ９が音素/ｎ/に対応し、基準フレームＦｔ１０〜の基準フレームが音素/ａ/に対応している。
【００４４】
一方、１パスビタビアルゴリズムによって歌唱音声の状態遷移が決定され、この結果、図８（ｃ）に示すように、歌唱音声の歌唱フレームＦｍ１およびＦｍ２が音素/Ｓｉｌｅｎｃｅ/に対応し、歌唱フレームＦｍ３〜Ｆｍ１０が音素/ｎ/に対応し、歌唱フレームＦｍ１１〜が音素/ａ/に対応していることが判明したものとする。
【００４５】
この結果、図８（ｄ）に示すように、歌唱音声の各歌唱フレームと、基準音声の各基準フレームとを対応付ける（アライメントする）ことができる。具体的には、以下の通りである。
【００４６】
まず、音素/Ｓｉｌｅｎｃｅ/に対応するフレームとして、歌唱音声の歌唱フレームＦｍ１と基準音声の基準フレームＦｔ１とを対応付け、歌唱音声の歌唱フレームＦｍ２と基準音声の基準フレームＦｔ２とを対応付ける。
【００４７】
また、図８（ｃ）に示すように、歌唱音声が歌唱フレームＦｍ２からＦｍ３に切換わる際に、状態“Ｓｉｌｅｎｃｅ”から状態“ｎ１”に遷移しているので、音素/ｎ/に対応する歌唱フレームとしては、歌唱フレームＦｍ３が最初のフレームとなる。一方、基準音声については、音素/ｎ/に対応する基準フレームは、図８（ｅ）に示す音素記述列によれば基準フレームＦｔ４からであるので、歌唱音声の歌唱フレームＦｍ３と、基準音声の基準フレームＦｍ４とを対応付ける。
【００４８】
次に、歌唱音声の歌唱フレームＦｍ４においては、新たな音素（図８（ｃ）に示す例においては音素/ａ/）に移行していないので、歌唱音声の歌唱フレームＦｍ４と、基準音声の基準フレームＦｔ５とを対応付ける。以後同様の処理を繰り返し、歌唱音声の歌唱フレームＦｍ５〜Ｆｍ７の各々と、基準音声の基準フレームＦｔ６〜Ｆｔ８の各々とを順次対応付けていく。
【００４９】
ところで、図８（ｃ）〜（ｅ）に示す例では、歌唱音声の歌唱フレームＦｍ３〜Ｆｍ１０の８フレームが音素/ｎ/に対応しているのに対して、基準音声の音素/ｎ/に対応しているフレームは基準フレームＦｔ４〜Ｆｔ９である。このように、歌唱者が対象者よりも同じ音素を長い時間発声してしまう場合が生じるので、本実施形態では、予め用意したループフレームを用いて基準音声が歌唱音声よりも短い場合の補間を行う。
【００５０】
ループフレームは、図８（ｆ）に示すように、音を伸ばして発音する場合のピッチの変化やアンプリチュードの変化を擬似的に再現するためのデータを数フレーム分記憶しており、例えば、基本周波数の差分（ΔＰｉｔｃｈ）やアンプリチュードの差分（ΔＡｍｐ）などから構成される。
そして、基準歌唱情報中には、音素列における各音素の最終フレームにループフレームの呼出しを指示するデータを記述しておく。これにより、歌唱者が基準音声よりも同じ音素を長い時間発声してしまった場合でも、良好にアライメントを行うことができる。
【００５１】
一方、上述した各フレーム毎の対応付けに並行して、歌唱音声の各歌唱フレームに対応付けれらた基準音声の基準フレームの基準フレーム番号を検出し、この基準フレーム番号を歌唱位置情報として音程・音量・声質比較部４６に出力する。
【００５２】
また、アライメント処理部４８は、アライメント安定度情報を採点結果演算部５０に出力する。以下、アライメント安定度情報について説明する。歌唱者は、演奏される楽曲の本来の歌詞の言葉とは異なる言葉で歌唱する場合もあり得る。例えば、本来の歌詞が「なきながら」であるにも関わらず、歌唱者が「なきならが」と誤って歌ってしまうような場合である。この場合、本来は「ながら」を表す音素列については、音素/ｎ//ａ/の後、音素/ｇ/に遷移するはずであるが、「ならが」と歌ってしまった場合には音素/ｎ//ａ/の後に音素/ｒ/に遷移することとなる。すなわち、歌唱者が歌詞を誤って歌ってしまった場合には、本来の遷移すべき音素とは異なる音素に遷移してしまう。すなわち、音素の飛び越しまたは後退が生じることがある。このように、アライメント処理部４８内のアライメント部４８５は、このような音素の飛び越しおよび後退の発生回数を単位時間毎にカウントし、このカウント値をアライメント安定度情報として出力するのである。すなわち、アライメント安定度情報は、歌唱者の歌唱している歌詞と、本来の歌詞との違いの程度を表す情報ということができる。
【００５３】
一方、分析部４４は、ＦＦＴ部４３から供給される歌唱フレーム毎の歌唱音声信号について、歌唱音程情報、歌唱音量情報およびメルケプストラム係数を算出する。すなわち、例えば、各歌唱フレーム単位の歌唱音声信号の基本周波数を歌唱音程情報とし、各歌唱フレーム単位の歌唱音声信号の平均アンプリチュードを歌唱音量情報とする、といった具合である。そして分析部４４は、歌唱音程情報および歌唱音量情報をタイミング比較部４５に、歌唱音程情報、歌唱音量情報およびメルケプストラム係数を音程・音量・声質比較部４６に、それぞれ出力する。
【００５４】
ここで、歌唱音声信号のメルケプストラム係数の算出手順の一例について説明する。まず、分析部４４は、ＦＦＴ部４３から供給される歌唱フレーム単位の歌唱音声信号の周波数スペクトルに対し、メルスケール帯域フィルタ群を用いてメルスケールに従った重み付けを施す。ここで、メルスケール帯域フィルタ群は、Ｎ個の帯域フィルタから構成され、図９に示すように、各々の帯域フィルタの通過帯域がメルスケール上（または対数周波数軸上）に等間隔に配置されるようになっている。これは、人間の聴覚特性（すなわち、低い周波数においては細かい周波数分解能を有し、高い周波数においては粗い周波数分解能を有する）を考慮して、歌唱音声信号の周波数スペクトルに対してメルスケールに応じた重み付けがなされるようにするためである。この結果得られたメルスケール帯域フィルタ群からのＮ個の出力信号を用いてケプストラム演算を行うことにより、歌唱音声信号のメルケプストラム係数を求めることができる。このケプストラム演算は、上記メルスケール帯域フィルタ群のうちのｋ番目の帯域フィルタからの出力信号のエネルギ合計値を｜Ｓｋ｜とすると、
【数３】

によって表される。
【００５５】
タイミング処理部４５は、分析部４４から歌唱音程情報および歌唱音量情報が供給されると、基準歌唱データベース４７に記憶された基準音程情報および基準音量情報のうち、演奏が開始された時点からの経過時刻に対応する基準フレームに対応付けられた基準音程情報および基準音量情報を読み出す。そして、各歌唱フレーム単位で順次供給される歌唱音程情報および歌唱音量情報から歌唱音声の立ち上がりタイミング（すなわち、歌唱音声の音程または音量が変化するタイミング）を検出する一方、基準音声の立ち上がりタイミング（すなわち、基準音声の音程または音量が変化するタイミング）を検出する。そして、歌唱音声の立ち上がりタイミングと基準音声の立ち上がりタイミングとを比較し、各タイミングの一致度を表すタイミング比較結果を採点結果演算部５０に出力する。
【００５６】
一方、音程・音量・声質比較部４６は、まず、アライメント処理部４８から供給される歌唱位置情報によって指定される基準フレーム番号に対応付けられた基準音程情報、基準音量情報を基準歌唱データベース４７から読み出すとともに、当該基準フレームにおける音韻番号に対応付けられたメルケプストラム係数を音韻テーブルから読み出す。つまり、基準音声の各音楽要素のうち、歌唱者による歌唱位置に対応した各音楽要素を読み出すのである。そして、読み出した基準音程情報、基準音量情報およびメルケプストラム係数の各々を、分析部４４から供給される歌唱音程情報、歌唱音量情報およびメルケプストラム係数と比較し、各々の比較結果である音程比較結果、音量比較結果および声質比較結果を採点結果演算部５０に出力する。具体的には、歌唱音程情報と基準音程情報との差分値を音程比較結果とし、歌唱音量情報と基準音量情報との差分値を音量比較結果とする。また、歌唱音声のメルケプストラム係数ＣＭと基準音声のメルケプストラム係数ＣＴとを用い、
【数４】

なる演算を行うことにより係数ＤＩＳＴspecの値を求め、この値を声質比較結果として出力する。すなわち、このＤＩＳＴspecの値が大きい程、歌唱音声信号のメルケプストラム係数と基準音声信号のメルケプストラム係数との差が大きい、すなわち、歌唱音声の声質と基準音声の声質とが異なることを意味しており、ＤＩＳＴspecの値が０である場合には、歌唱音声の声質と基準音声の声質とがほぼ一致していることを意味している。
【００５７】
採点結果演算部５０は、タイミング比較部４５から供給されるタイミング比較結果と、音程・音量・声質比較部４６から出力される音程比較結果、音量比較結果および声質比較結果と、アライメント処理部４８から出力されるアライメント安定度情報とに基づいて歌唱を採点し、各要素毎に採点結果を出力する。具体的には、例えば、数値「１００」からタイミング比較結果に応じた数値を減算して歌唱タイミングに関する点数とし、数値「１００」から音程比較結果に応じた数値を減算して音程に関する点数とし、数値「１００」から音量比較結果に応じた数値を減算して音量に関する点数とする、といった具合である。採点結果表示部５１は、採点結果演算部５０から供給される採点結果を表示する。
【００５８】
このように、本実施形態においては、歌唱者の歌唱位置に対応した基準フレームにおける基準歌唱音声の各音楽要素を、歌唱音声の各音楽要素と比較するようになっているため、例えば歌唱者による歌唱位置が本来の歌唱位置とずれている場合、すなわち、歌唱タイミングがずれている場合であっても、かかる歌唱タイミングのずれの影響を考慮することなく、音程、音量および声質の各音楽要素についてのみの評価を行うことができる。
【００５９】
また、本実施形態においては、音程、音量および歌唱タイミングだけでなく、声質も評価の対象としているので、歌唱者の声質と楽曲の歌手の声質との似具合を評価することができる。
【００６０】
Ｂ：第２実施形態
Ｂ−１：第２実施形態の構成
次に、本発明の第２実施形態に係るカラオケ装置の構成を説明する。
上記第１実施形態においては、タイミング比較部４５において、歌唱音声の音程および音量とによって導出される歌唱タイミングと、基準音声の音程および音量とによって導出される歌唱タイミングとを比較することにより、歌唱タイミングの評価を行うようにした。これに対し、本実施形態においては、上述したアライメント処理部４８に歌唱タイミングを比較する機能を持たせている。
【００６１】
図１０は、本実施形態に係るカラオケ装置１’の構成を示すブロック図である。なお、図１０に示す各部のうち、前掲図１に示したカラオケ装置１の各部と共通する部分については同一の符号を付して、その説明を省略する。図１０に示すように、本実施形態に係るカラオケ装置１’は、前掲図１に示したタイミング比較部４５を備えておらず、その代わりにアライメント処理部４８内のアライメント部４８５が歌唱タイミングの評価を行う機能を有している。
【００６２】
Ｂ−２：第２実施形態の動作
続いて、本実施形態の動作について説明する。なお、本実施形態においては、上述した第１実施形態の動作と比較してアライメント処理部４８内のアライメント部４８５の動作のみが異なるので、アライメント部４８５の動作についてのみ説明し、その他の各部の説明は省略する。
【００６３】
アライメント部４８５は、上記第１実施形態と同様の手順で歌唱位置情報を生成し、音程・音量・声質比較部４６に出力するとともに、アライメント安定度情報を生成して採点結果演算部５０に出力する。一方、アライメント部４８５は、歌唱位置情報によって指定される基準音声の基準フレームと、楽曲の演奏開始時点からの経過時刻に対応する基準歌唱の基準フレームとの時間的な差を算出し、この算出結果をタイミング比較結果として採点結果演算部５０に出力する。すなわち、このタイミング比較結果には、本来歌唱すべき楽曲中の位置と、実際に歌唱者が歌唱している楽曲中の位置との時間的な差、すなわち、歌唱タイミングの一致度が反映されることとなる。
【００６４】
採点結果演算部５０は、上記第１実施形態と同様の処理によって音程・音量・声質比較部４６から供給される音程比較情報、音量比較情報および声質比較情報と、アライメント処理部４８から供給されるタイミング比較結果およびアライメント安定度情報とによって各音楽要素毎の点数を演算する。この演算結果は、採点結果表示部５１によって表示される。
【００６５】
このように、本実施形態によれば、アライメント処理部４８によるアライメント結果に基づいて、歌唱タイミングの評価を行うようになっているので、上述した第１実施形態に係るカラオケ装置１と比較して処理が簡易になる。
【００６６】
Ｃ：変形例
以上この発明の一実施形態について説明したが、上記実施形態はあくまでも例示であり、上記実施形態に対しては、本発明の趣旨から逸脱しない範囲で様々な変形を加えることができる。変形例としては、例えば以下のようなものが考えられる。
【００６７】
＜変形例１＞
上記各実施形態においては、音程・音量・声質比較部４６によって音程の比較結果、音量の比較結果および声質の比較結果を出力するようにしたが、これに加えて、例えば歌唱中のビブラートの評価を行うようにしてもよい。本変形例は、例えば以下の構成とすることにより実現することができる。
【００６８】
まず、楽曲データ記憶部３１に記憶された各楽曲データ中の、楽曲中のビブラートをかけるべき区間（以下、「ビブラート区間」という）の最初および最後に対応する部分にビブラート区間であることを示すフラグを挿入しておく。
【００６９】
一方、音程・音量・声質比較部４６は、分析部４４から順次供給される歌唱音程情報を複数の歌唱フレームにわたって記憶するメモリを具備している。以下、このようにしてメモリに記憶された複数の音程からなる列を音程列という。また、基準歌唱データベース４７に記憶された基準歌唱情報中の各基準フレームのうち、上記ビブラート区間に対応する基準フレーム（通常、ビブラート区間は複数フレームわたる）には、当該基準フレームにおける基準音声のビブラートの強度（基準ビブラート強度）およびビブラートの周波数（基準ビブラート周波数）とが対応付けられている。
【００７０】
シーケンサ３２は、楽曲データの再生中にビブラート区間の開始を示すフラグを読み出すと、歌唱評価部４内の音程・音量・声質比較部４６に対して、ビブラート区間が開始したことを通知する。音程・音量・声質比較部４６は、この通知を受けると、それ以後に分析部４４から供給される歌唱音程情報を順次メモリに書込む。一方、シーケンサ３２は、楽曲データ中のビブラート区間の終了を示すフラグを読み出すと、音程・音量・声質比較部４６に対し、ビブラート区間が終了したことを通知する。音程・音量・声質比較部４６は、この通知を受けると、その時点までにメモリに記憶された歌唱音程情報を読み出すとともに、各歌唱音程情報が示す音程を時系列的に並べた波形を形成する。そして、音程・音量・声質比較部４６は、形成した波形に対してＦＦＴを施す。図１１はこの結果得られた周波数スペクトルの一例を示す図である。このような周波数スペクトルが得られると、音程・音量・声質比較部４６は、当該周波数スペクトルのピークを検出し、当該ピークにおける強度（歌唱ビブラート強度）とそのピークにおける周波数（歌唱ビブラート周波数）とを検出する。
【００７１】
一方、音程・音量・声質比較部４３は、基準歌唱データベース４７から、上記ビブラート区間に該当する複数フレームに対応した基準ビブラート強度および基準ビブラート周波数を読み出す。そして、上記歌唱ビブラート強度と基準ビブラート強度、および歌唱ビブラート周波数と基準ビブラート周波数とを比較し、この比較結果をビブラート比較結果として採点結果演算部５０に出力する。すなわち、この比較結果は、歌唱音声のビブラートと、基準音声のビブラートとの一致度を表している。
【００７２】
このビブラート比較結果を受け取った採点結果演算部５０は、上述した各音楽要素（歌唱タイミング、音程等）と同様の処理により、ビブラートの一致度に関する採点を行い、採点結果を採点結果表示部５１に出力する。この結果、表示結果表示部５１には、上述した歌唱タイミング等の採点結果とともに、ビブラートの採点結果が表示される。本変形例によれば、歌唱者による歌唱についてより詳細な採点を行うことができる。
【００７３】
＜変形例２＞
上記各実施形態においては、歌唱音声の声質と基準音声の声質との比較、すなわち各スペクトル形状の比較を、スペクトルマッチング尺度の一種であるメルケプストラム係数を用いて実施するようにしたが、この手法に代えて以下の手法を用いてもよい。
【００７４】
すなわち、例えば、歌唱音声のフォルマント周波数と、基準音声のフォルマント周波数とを比較することにより声質の一致度を検出するようにしてもよい。具体的には、歌唱評価部４内の分析部４４は、ＦＦＴ部４３から供給される歌唱音声の周波数スペクトルから、１以上のフォルマントにおけるフォルマント周波数を検出して音程・音量・声質比較部４６に出力する。一方、基準歌唱データベース４７には、基準音声の周波数スペクトルにおける１以上のフォルマントにおけるフォルマント周波数を、各基準フレーム単位で記憶しておく。そして、音程・音量・声質比較部４６は、分析部４４から出力されるフォルマント周波数と、基準歌唱データベース４７に記憶されたフォルマント周波数とを比較して、この比較結果を採点結果演算部５０に出力する。これにより、この比較結果に、歌唱音声の声質と基準音声の声質との一致度を反映させることができる。
【００７５】
なお、声質の比較方法は、以上示した方法に限られるものではない。例えば、ＦＦＴ、ＳＭＳ、ケプストラム分析または線形予測分析等を用いて歌唱音声のスペクトル包絡と基準音声のスペクトル包絡と比較し、声質比較結果としてもよい。
【００７６】
＜変形例３＞
上記各実施形態においては、リアルタイムで採点結果の表示を行うようにしたが、以下のようにしてもよい。すなわち、採点結果演算部５０は、各部から供給される各音楽要素毎の比較結果、タイミング比較結果、音程比較結果等を順次メモリに記憶し、楽曲の演奏が終了した際に、当該メモリに記憶された各音楽要素毎の比較結果の平均値を求め、この平均値に基づいて各音楽要素毎の採点を行うようにしてもよい。
【００７７】
また、上記実施形態においては、採点結果を文字として表示するようにしたが、採点結果を歌唱者に報知する方法はこれに限られるものではない。例えば、採点結果を音声によって歌唱者に報知するようにしてもよい。
【００７８】
＜変形例４＞
上記各実施形態においては、歌唱位置に対応した基準音声の基準フレームを楽曲の進行に伴って逐次検出し、リアルタイムで採点を行うため、隠れマルコフモデルを用い、１パスビタビアルゴリズムによって歌唱音声の状態遷移を決定するようにした。しかしながら、リアルタイムの採点を行う必要がない場合、例えば、楽曲の演奏終了後に採点結果を表示するような場合等には、歌唱音声と基準音声との時間的位置関係を検出するための手法は、上記手法でなくてもよい。例えば、歌唱音声の歌唱位置と、基準音声のフレームとを対応付けるために、ＤＰマッチング手法（ＤＴＷ；Dynamic Time Warping）等を用いてもよい。
【００７９】
【発明の効果】
以上説明したように、本発明によれば、歌唱者の歌唱位置に対応した基準フレームにおける基準歌唱音声の各音楽要素を、歌唱音声の各音楽要素と比較するようになっているため、歌唱タイミングがずれている場合であっても、かかる歌唱タイミングのずれの影響を考慮することなく、音程、音量および声質の各音楽要素についてのみの評価を行うことができる。
【図面の簡単な説明】
【図１】本発明の第１実施形態であるカラオケ装置の全体構成を示すブロック図である。
【図２】（ａ）は同カラオケ装置における基準歌唱情報の内容を例示する図であり、（ｂ）は音韻テーブルの内容を例示する図であり、（ｃ）は音素記述列の内容を例示する図である。
【図３】同カラオケ装置におけるアライメント処理部の構成を示すブロック図である。
【図４】同カラオケ装置における符号帳の内容を説明するための図である。
【図５】同カラオケ装置において用いられる音素について説明するための図である。
【図６】同カラオケ装置における確率データの内容を説明するための図である。
【図７】隠れマルコフモデルについて説明するための図である。
【図８】同カラオケ装置におけるアライメントの具体例を示す図である。
【図９】メルスケール帯域フィルタ群の通過帯域を例示する図である。
【図１０】本発明の第２実施形態であるカラオケ装置の全体構成を示すブロック図である。
【図１１】第１および第２実施形態に係るカラオケ装置のビブラート評価について説明するための図である。
【図１２】従来のカラオケ装置における歌唱評価方法を説明するための図である。
【符号の説明】
１，１’……カラオケ装置、２……マイク（音声入力手段）、３……カラオケ処理部、３１……楽曲データ記憶部、３２……シーケンサ、３３……音源、３４……ミキサ、３５……スピーカ（出力手段）、４……歌唱評価部、４１……音声信号切出部、４２……分析窓生成部、４３……ＦＦＴ部、４４……分析部（分析手段）、４５……タイミング比較部（タイミング比較手段）、４６……音程・音量・声質比較部（比較手段）、４７……基準歌唱データベース（記憶手段）、４８……アライメント処理部（アライメント手段）、４８１……特徴パラメータ分析部、４８２……ベクトル量子化部、４８３……音素状態形成部、４８４……状態遷移決定部、４８５……アライメント部、５０……採点結果演算部（評価手段）、５１……採点結果表示部。

Claims

基準音声を時間軸上で分割した複数の基準フレーム毎に当該基準音声の音楽要素を記憶する記憶手段と、
歌唱者の歌唱音声を歌唱フレームに順次分割し、分割により得られた歌唱フレームに対応した基準フレームを探索するとともに、基準音声要素に対する歌唱音声音素遷移の飛び越しおよび後退の発生回数であるアライメント安定度を出力するアライメント手段と、
前記分割により得られた歌唱フレームの音楽要素を抽出する分析手段と、
前記分析手段によって抽出された歌唱フレームの音楽要素と、前記アライメント手段によって探索された基準フレームの音楽要素とを比較する比較手段と、
前記比較手段による比較結果と前記アライメント安定度に基づいて歌唱を評価する評価手段とを具備することを特徴とする歌唱評価装置。
前記記憶手段に記憶された各基準フレームの音楽要素の時間的変化と、前記分析手段によって抽出された歌唱フレームの音楽要素の時間的変化とを比較することにより、歌唱タイミングの一致度を検出するタイミング比較手段を具備し、
前記評価手段は、前記比較手段およびタイミング比較手段による比較結果に基づいて歌唱を評価すること
を特徴とする請求項１に記載の歌唱評価装置。
前記アライメント手段は、
前記歌唱フレームに対応した基準フレームを探索するとともに、探索された基準フレームと、本来歌唱すべき基準フレームとの時間的な差に基づいて歌唱音声と基準音声の歌唱タイミングの一致度を検出し、
前記評価手段は、前記比較手段による比較結果、および前記アライメント手段によって検出された歌唱タイミングの一致度に基づいて歌唱を評価すること
を特徴とする請求項１に記載の歌唱評価装置。
前記音楽要素として音程を含むことを特徴とする請求項１〜３のいずれか１の請求項に記載の歌唱評価装置。
前記音楽要素として音量を含むことを特徴とする請求項１〜４のいずれか１の請求項に記載の歌唱評価装置。
前記音楽要素として声質を含むことを特徴とする請求項１〜５のいずれか１の請求項に記載の歌唱評価装置。
前記比較手段は、スペクトルマッチング尺度を用いて前記基準音声の声質と歌唱音声の声質とを比較することを特徴とする請求項６に記載の歌唱評価装置。
前記比較手段は、前記基準音声の１以上のフォルマント周波数と歌唱音声の１以上のフォルマント周波数とを比較することを特徴とする請求項６に記載の歌唱評価装置。
前記アライメント手段は、歌唱音声の音素と基準音声の音素とを対比することにより各歌唱フレームに対応した基準フレームを探索することを特徴とする請求項１〜８のいずれか１の請求項に記載の歌唱評価装置。
前記アライメント手段は、
楽曲の音素列を記憶する音素列記憶手段と、
歌唱音声の代表的なパラメータを特徴ベクトルとして所定数のシンボルにクラスタ化した符号帳と、各音素毎の状態遷移確率および前記各シンボルの観測確率とを記憶する音素情報記憶手段と、
前記分割により得られた歌唱フレームを特徴パラメータ分析し、前記音素情報記憶手段に記憶された符号帳に基づいて当該歌唱フレームの特徴パラメータをシンボル量子化して当該歌唱フレームの観測シンボルとする量子化手段と、
前記音素情報記憶手段に記憶された状態遷移確率および観測確率に基づいて、前記音素列記憶手段に記憶された音素列の各状態を有限状態ネットワーク上で隠れマルコフモデルによって形成する状態形成手段と、
前記量子化手段によって量子化された観測シンボルと、前記状態形成手段によって形成された前記隠れマルコフモデルに従って、１パスビタビアルゴリズムによって状態遷移を決定する状態遷移決定手段と、
決定した前記歌唱音声の状態遷移に基づいて、各歌唱フレームに対応した基準フレームを探索する探索手段と
を具備することを特徴とする請求項１〜９のいずれか１の請求項に記載の歌唱評価装置。
請求項１〜１０のいずれか１の請求項に記載の歌唱評価装置と、
前記歌唱音声を入力するための音声入力手段と、
楽曲データに従って楽音信号を生成して出力する音源と、
前記歌唱音声および楽音信号を音として出力する出力手段と
を具備することを特徴とするカラオケ装置。