以下、音声評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、2以上の部分音声情報を有する入力音声情報を受け付け、部分音声情報の特徴量の変化に関する入力変化情報を取得し、当該入力変化情報と教師音声の教師変化情報とを用いて、入力音声の評定を行う音声評定装置について説明する。
なお、入力変化情報および教師変化情報(以下、まとめて「変化情報」という場合がある。)は、例えば、2以上の部分音声情報の中の順位に関する情報である。また、順位に関する情報は、例えば、後述する特徴量パタンである。また、入力音声情報は、例えば、文章、単語などである。特徴量は、例えば、後述するアクセント強度、リズム量である。なお、特徴量がアクセント強度である場合、音声評定装置1はアクセント評定を行う装置となる。また、特徴量がリズム量である場合、音声評定装置1はリズム評定を行う装置となる。
図1は、本実施の形態における音声評定装置1のブロック図である。
音声評定装置1は、格納部11、受付部12、処理部13、出力部14を備える。
格納部11は、教師変化情報格納部111を備える。処理部13は、取得部131、評定部132を備える。取得部131は、分割手段1311、特徴量取得手段1312、変化情報取得手段1313を備える。
格納部11は、各種の情報を格納し得る。各種の情報は、例えば、後述する教師変化情報、後述する入力音声情報、後述する教師音声情報等である。
教師変化情報格納部111は、1または2以上の教師変化情報が格納される。教師変化情報は、教師音声情報を構成する2以上の各部分音声情報の特徴量の変化に関する情報である。部分音声情報は、例えば、音素、単語等である。2以上の教師変化情報は、例えば、一の教師音声情報の文章の変化情報、および当該文章を構成する2以上の単語の変化情報である。また、2以上の教師変化情報は、例えば、2以上の教師音声情報の変化情報である。また、2以上の教師変化情報は、例えば、2以上の各教師音声情報の文章の変化情報、および当該文章を構成する2以上の単語の変化情報である。
なお、教師音声情報は、教師となる音声情報である。教師音声情報は、通常、単語または文章の音声情報である。文章は、文と言っても良い。教師変化情報は、例えば、2以上の部分音声情報の特徴量の大きさの順位に関する情報である。部分音声情報の特徴量の大きさの順位に関する情報は、例えば、2以上の各部分音声情報の特徴量の大きさの順位に関する並びの情報である特徴量パタンである。特徴量パタンとは、例えば、アクセント強度パタン、リズム量パタンである。アクセント強度パタンは、アクセントパタンと言っても良い。アクセントパタンとは、部分音声情報のアクセント強度の大きさの順位に関する並びの情報である。アクセントパタンは、音声情報の単語または音素のアクセント強度の大小関係を表す情報であり、例えば、単語または音素のアクセント強度を整数値でパタン化した情報である。なお、アクセント強度とは、アクセントの強度に関する情報である。アクセント強度には、例えば、音素ごとのアクセント強度、単語ごとのアクセント強度がある。音素ごとのアクセント強度の算出技術は、例えば、特許第4716116号等に示されており、公知技術である。音素ごとのアクセント強度は、フレームごとのアクセント強度の音素区間での代表値(通常、最大値であり、平均値や中央値などでも良い)である。なお、算出の対象とする音素は、通常、母音である。つまり、母音以外の音素は算出(評定)の対象外として、例えば、ゼロ値をアクセント強度とする。また、単語ごとのアクセント強度は、単語ごとにその単語内における音素ごとのアクセント強度の代表値(通常、最大値であり、平均値や中央値などでも良い)を算出する。また、単語ごとにその単語内におけるフレームごとのアクセント強度の代表値(通常、最大値であり、平均値や中央値などでも良い)を算出してもいい。なお、評定対象外の単語(基本的には無音区間のみ、もしくは母音の無い単語)は、例えば、ゼロ値をアクセント強度とする。
また、リズム量とは、音声情報の長さに関する情報である。音声情報の長さに関する情報とは、部分音声情報の長さに関する情報である。リズム量パタンとは、部分音声情報のリズム量の大きさの順位に関する並びの情報である。特徴量パタンがリズム量パタンである場合、リズム評定が可能である。リズム評定とは、単語や音素を発声する長さが正しいか(ネイティブ発話に似ているか)どうかを評価する。なお、単語や音素の発声の長さはフォースドアライメントを用いて求められる。その長さをリズム量と呼ぶ。教師音声のリズム量からリズムパタンが生成される。教師音声情報から得られたリズム量パタンと入力音声情報のリズム量の類似度を、順位相関係数を用いて算出し、リズム評定スコアが求められる。
また、教師変化情報は、例えば、特徴量傾向などでも良い。特徴量傾向とは、2以上の各部分音声情報の特徴量が増加傾向か減少傾向かを示す情報である。特徴量傾向は、2以上の各部分音声情報の特徴量が、増加傾向か減少傾向か同一かのうちのいずれかの情報を採り得ても良い。特徴量傾向は、例えば、アクセント傾向、リズム量傾向である。アクセント傾向は、2以上の各部分音声情報のアクセント強度が増加傾向か減少傾向かを示す情報である。アクセント傾向は、2以上の各部分音声情報のアクセント強度が、増加傾向か減少傾向か同一かのうちのいずれかの情報を採り得ても良い。リズム量傾向は、2以上の各部分音声情報のリズム量が増加傾向か減少傾向か等を示す情報である。なお、特徴量が取得される2以上の部分音声情報は、評定対象外の部分音声情報を除いた、2以上の評定対象部分音声情報でも良い。また、特徴量が取得される2以上の部分音声情報は、すべての部分音声情報でも良い。評定対象外の部分音声情報は、例えば、無音区間、母音の無い区間の情報である。
通常、教師変化情報のデータ構造と、後述する入力変化情報のデータ構造とは同一である。教師変化情報格納部111の教師変化情報は、例えば、識別子に対応付いていても良い。また、教師変化情報は、例えば、教師音声情報に対応付いていても良い。教師音声情報とは、教師となる音声情報である。教師となる音声情報は、模範となる音声情報である。
なお、教師変化情報格納部111に格納されている、特徴量パタン等の教師変化情報は、教師音声情報から生成された情報であることは好適である。かかる生成処理は、例えば、実施の形態3で説明する教師変化情報の生産装置による。ただし、教師変化情報格納部111の教師変化情報は、音声学や言語学の科学的な知見に基づいて、人手により作成される等しても良い。また、特徴量パタン等の教師変化情報は、基本的には教師音声情報から生成することができるが、評定対象の文章や単語の評定したいポイント(何に着目して評定するか)合わせて、人手により調整してもいい。
受付部12は、2以上の部分音声を有する音声情報である音声情報を受け付ける。かかる音声情報は、例えば、入力音声情報、または教師音声情報である。音声情報は、通常、単語または文章の音声情報である。ここで、受け付けとは、マイクなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。
処理部13は、各種の処理を行う。各種の処理とは、例えば、取得部131、評定部132等が行う処理である。
取得部131は、音声情報が有する2以上の各部分音声情報の特徴量の変化に関する変化情報を取得する。取得部131は、入力音声情報が有する2以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する。また、実施の形態3で説明するように、取得部131は、教師音声情報が有する2以上の各部分音声情報の特徴量の変化に関する教師変化情報を取得しても良い。なお、本実施の形態において、取得部131は、入力変化情報を取得するものとして説明するが、実施の形態3では、取得部131は教師変化情報を取得し、その動作は同様である。
また、ここで、入力音声情報が文章の場合は、部分音声情報は、例えば、単語である。但し、入力音声情報が文章の場合、部分音声情報は音素でも良い。また、入力音声情報が単語の場合は、部分音声情報は、例えば、音素である。また、特徴量とは、例えば、アクセント強度、またはリズム量である。
また、入力変化情報は、例えば、入力音声情報のアクセントパタン、入力音声情報のアクセント傾向などである。
取得部131は、例えば、音声情報が有する2以上の各部分音声情報の特徴量を取得し、音声情報が有する2以上の部分情報のうちの少なくとも2以上の評定対象部分音声情報の2以上の特徴量の大きさの順位を取得し、2以上の特徴量の大きさの順位を有する変化情報を取得する。かかる方法を第一の変化情報取得方法という。なお、2以上の評定対象部分音声情報とは、音声情報が有する2以上の部分情報のうち評定対象外の部分音声情報を除いた部分情報である。また、「少なくとも2以上の評定対象部分音声情報の2以上の特徴量の大きさの順位を取得する」ことは、評定対象部分音声情報のみの特徴量の大きさの順位を取得することでも良いし、音声情報が有する2以上の部分情報のすべての特徴量の大きさの順位を取得することでも良い。
教師変化情報が有する情報であり、2以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報である場合、取得部131は、例えば、入力変化情報が有する情報であり、前記同一の情報に対応する位置の2つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っているか否かを判断し、隣り合っていると判断した場合は、当該2つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得する。かかる方法を特殊方法という。
例えば、入力音声情報の単語トランスクリプションが「/sil/alice/sil/looked/sil/up/sil/」であり、当該入力音声情報に対応する教師単語アクセントパタン(教師変化情報)が「/0/2/0/1/0/1/0/」である場合の説明を行う。かかる場合の入力単語アクセント強度の並びが「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」であった、とする。その場合、例えば、以下のような1)から5)の動作が行われる。
1)取得部131は、教師単語アクセントパタン「/0/2/0/1/0/1/0/」から評定対象外のゼロ値を除く。すると、教師単語アクセントパタン「2 1 1」が取得される。
2)取得部131は、入力単語アクセント強度から評定対象外のゼロ値を除く。すると、入力単語アクセント強度「60.396744 53.130833 48.609158」が取得される。
3)取得部131は、教師単語アクセントパタンから順位データを求める。この時、教師変化情報が有する情報であり、2以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報であり、隣り合っている情報(2位と3位が同じ値)であるので、取得部131は、その順位の平均(2+3)/2=2.5を、中間順位として与える。そして、取得部131は、教師単語アクセント順位「1 2.5 2.5」を得る。
4)教師単語アクセント順位の中にタイ(同順位)がある場合、そのタイデータの位置に対応する入力単語アクセント強度の順位が隣り合っていれば、取得部131は、その入力単語アクセント強度を大きい強度値に合わせてタイデータに変換する。つまり、取得部131は、入力単語アクセント強度「60.396744 53.130833 53.130833」を取得する。
5)取得部131は、入力単語アクセント強度から順位データを求める。ここで、タイ(同順位)を含むので、取得部131は、中間順位を与える。つまり、取得部131は、入力単語アクセント順位「1 2.5 2.5」を得る。
取得部131は、例えば、入力音声情報が有する2以上の各部分音声情報の特徴量を取得し、入力音声情報が有する2以上の部分情報のうち、評定対象外の部分音声情報を除いた、2以上の評定対象部分音声情報の2以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得する。かかる方法を第二の変化情報取得方法という。なお、部分音声情報は、例えば、文章を構成する単語の音声情報である。また、部分音声情報は、例えば、単語を構成する音素の音声情報である。
分割手段1311は、入力音声情報を2以上の部分音声情報に分割する。分割手段1311は、例えば、入力音声情報の音素ごとの区間情報を、フォースドアライメントを用いて算出する。区間情報とは、当該音素が入力音声情報の中の区間を示す情報である。区間情報は、例えば、入力音声情報の何ミリ秒目から何ミリ秒目までかを示す情報である。分割手段1311は、例えば、受付部12が受け付けた入力音声情報と、格納されている教師音声情報とのアラインメントを行う。教師音声情報は、格納部11に格納されている情報であって、入力音声情報と同じ音韻のデータである。ここで、アラインメントとは、通常、フォーストアラインメント(フォースアラインメントともいう)である。フォーストアラインメントは、強制的に、音声情報が有する音韻と、教師データが有する音韻を対応付ける処理であり、公知技術であるので詳細な説明を省略する。また、分割手段1311は、入力音声情報を2以上の単語に分割しても良い。分割手段1311が入力音声情報を2以上の部分音声情報に分割するアルゴリズムは問わない。
特徴量取得手段1312は、分割手段1311が分割した2以上の各部分音声情報から、特徴量を取得する。特徴量取得手段1312は、例えば、部分音声情報が有するフレームごとのアクセント強度を算出する。そして、特徴量取得手段1312は、例えば、部分音声情報が有する音素ごとのアクセント強度を、音素ごとの区間情報とフレームごとのアクセント強度から算出する。特徴量取得手段1312は、例えば、一の音素内の複数のフレームの複数のアクセント強度の代表値を音素のアクセント強度として取得する。代表値とは、例えば、最大値、平均値、中央値等である。なお、アクセント強度等の特徴量を算出する対象の音素は、通常、母音である。なお、特徴量取得手段1312は、母音以外の音素の特徴量をゼロ(0)とすることは好適である。また、特徴量取得手段1312は、例えば、入力音声情報の単語ごとのアクセント強度を、各単語内の音素ごとのアクセント強度から算出する。徴量取得手段1312は、例えば、一の単語が有する複数の音素の複数のアクセント強度の代表値を単語のアクセント強度として取得する。代表値については上述した。徴量取得手段1312は、例えば、一の単語が有する複数のフレームのアクセント強度の代表値を単語のアクセント強度として取得しても良い。
なお、フレームごとのアクセント強度を算出する処理は、特許第4716116号等に記載されており、公知技術であるので、詳細な説明を省略する。
変化情報取得手段1313は、特徴量取得手段1312が取得した2以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する。
変化情報取得手段1313は、例えば、特徴量取得手段1312が取得した2以上の各部分音声情報の特徴量の大きさの順位を取得し、2以上の特徴量の大きさの順位を有する入力変化情報を取得する。かかる方法は、第一の変化情報取得方法である。
第一の変化情報取得方法において、例えば、文章の入力音声情報の単語トランスクリプションが「/sil/alice/sil/looked/sil/up/sil/」であり、各単語の単語アクセント強度の並びが「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」である場合、変化情報取得手段1313は、例えば、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。つまり、変化情報取得手段1313は、単語/alice/の単語アクセント強度/60.396744/が最も大きなアクセント強度であるので、単語/alice/に対する順位の情報として最大数「3」を付与する。なお、最大数は、評定対象の単語数(評定対象部分音声情報の数)である。また、変化情報取得手段1313は、単語/looked/の単語アクセント強度/53.130833/が2番目に大きなアクセント強度であるので、単語/looked/に対する順位の情報として「2」を付与する。また、変化情報取得手段1313は、単語/up/の単語アクセント強度/48.609158/が3番目に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段1313は、アクセント強度が/0.000000/の無音区間に対して、順位の情報「0」を付与する。以上により、変化情報取得手段1313は、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。ここで、単語トランスクリプションとは、文章の音声を単語の音声に区切った場合の単語の音声列を表現したものである。また、単語アクセント強度とは、単語の特徴量の一例であり、単語のアクセント強度である。さらに、単語アクセントパタンとは、入力変化情報の一例であり、単語のアクセント強度の順位の並びに関する情報である。なお、スラッシュ「/」は単語の区切りである。「sil」は無音を表す記号であり、評定の対象としないので、通常、アクセント強度はゼロとする。また、無音は単語間に概ね存在するが、必ず存在するわけではない。なお、ここでのパタン化の基本的なルールは、例えば、以下の1)、2)である。
1)大きなアクセント強度には大きな整数値パタンを与える。
2)評定の対象としない単語や音素に対してはゼロを与える。
上記のようにアクセント強度をパタン化することにより、単語や音素のアクセントに対する大小関係(強弱関係)のみを表す情報が得られる。アクセント評定では、ある単語や音素のアクセント強度の値がいくらであるかという情報は重要ではない。文章(または単語)の中で、どの単語(または音素)のアクセント強度が大きくて、どの単語(または音素)のアクセント強度が小さいかという大小関係が重要であり、教師音声のアクセント強度の単語(または音素)間における大小関係との類似度を見ることが、アクセント評定の目的である。つまりアクセントの教師となるアクセントパタンデータがあれば(アクセント強度データがなくても)、アクセント評定を十分精度よく実現することができる。
また、教師音声情報と入力音声情報のアクセント強度どうしを比較するよりも、アクセントパタンを導入することで、後述のように調整したりすることができ、教師のアクセントをどのように構成するか、つまりどのような観点で入力音声情報のアクセントを評定するかを決める自由度が大きくなる。
例えば、後述するアクセントパタン生成方法の特殊方法では、音素アクセントパタンは(評定対象外のゼロ値を除いて)、/2 1 1/となっている。これは最大強度となる音素が1番目にあれば正解で、2番目3番目の強度の差はアクセントの良し悪しには無関係であるという教師パタンとなる。しかしながら、教師音声の音素アクセント強度をみると、1番目と2番目の値に差が少なく、3番目の値が離れている。これは、1番目と2番目の強度の差は良し悪しに無関係で、3番目が小さな強度となっていることが見たいポイントとであることを示している。このとき、教師アクセントパタンが/2 2 1/となっていれば、そのポイントを見ることができ、評定スコアにそれが反映される。以上のように、教師のアクセント情報にパタンという単純な整数値のデータを導入することにより、評定したいポイントをフレキシブルに調整できるようになる。
また、第一の変化情報取得方法において、例えば、単語「understand」の音素トランスクリプションが「/sil/ah n d er s t ae n d/sil/」であり、単語を構成する音素の音素アクセント強度の並びが「/0.000000/62.717609 0.000000 0.000000 62.379860 0.000000 0.000000 51.971569 0.000000 0.000000/0.000000/」である場合、変化情報取得手段1313は、例えば、音素アクセントパタン「/0/3 0 0 2 0 0 1 0 0/0/」を取得する。つまり、変化情報取得手段1313は、音素「ah」の音素アクセント強度「62.717609」が最も大きなアクセント強度であるので、音素「ah」に対する順位の情報として最大数「3」を付与する。なお、最大数は、評定対象の音素数(評定対象部分音声情報の数)である。また、変化情報取得手段1313は、音素「er」の音素アクセント強度「62.379860」が2番目に大きなアクセント強度であるので、音素「er」に対する順位の情報として「2」を付与する。また、変化情報取得手段1313は、音素「ae」の音素アクセント強度「51.971569」が3番目に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段1313は、アクセント強度が/0.000000/の無音区間または子音に対して、順位の情報「0」を付与する。以上により、変化情報取得手段1313は、音素アクセントパタン「/0/3 0 0 2 0 0 1 0 0/0/」を取得する。ここで、音素トランスクリプションとは、単語文章の音声を音素に区切った場合の音素の音声列を表現したものである。さらに、音素アクセントパタンとは、入力変化情報の一例であり、音素のアクセント強度の順位の並びに関する情報である。
変化情報取得手段1313は、例えば、入力音声情報に対応する教師変化情報が有する情報であり、2以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報であると判断し、かつ入力変化情報が有する情報であり、前記同一の情報に対応する位置の2つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っていると判断した場合は、当該2つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得する。かかる方法は、変化情報取得方法における特殊方法である。
変化情報取得手段1313は、例えば、2以上の評定対象部分音声情報の2以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得する。かかる場合、最も大きい特徴量に対応する評定対象部分音声情報に対する値を「2」、他の評定対象部分音声情報に対する値を「1」として、部分音声情報の並び通りの数字列を、入力変化情報として取得する。なお、かかる方法は、第二の変化情報取得方法である。
第二の変化情報取得方法において、例えば、文章の入力音声情報の単語トランスクリプションが「/sil/alice/sil/looked/sil/up/sil/」であり、各単語の単語アクセント強度の並びが「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」である場合、変化情報取得手段1313は、例えば、単語アクセントパタン「/0/2/0/1/0/1/0/」を取得する。つまり、変化情報取得手段1313は、単語/alice/の単語アクセント強度/60.396744/が最も大きなアクセント強度であるので、単語/alice/に対する順位の情報として最大数「2」を付与する。また、変化情報取得手段1313は、単語/looked/の単語アクセント強度/53.130833/が2番目以降に大きなアクセント強度であるので、単語/looked/に対する順位の情報として「1」を付与する。また、変化情報取得手段1313は、単語/up/の単語アクセント強度/48.609158/が2番目以降に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段1313は、アクセント強度が/0.000000/の無音区間に対して、順位の情報「0」を付与する。以上により、変化情報取得手段1313は、単語アクセントパタン「/0/2/0/1/0/1/0/」を取得する。
また、第二の変化情報取得方法において、例えば、単語「understand」の音素トランスクリプションが「/sil/ah n d er s t ae n d/sil/」であり、単語を構成する音素の音素アクセント強度の並びが「/0.000000/62.717609 0.000000 0.000000 62.379860 0.000000 0.000000 51.971569 0.000000 0.000000/0.000000/」である場合、変化情報取得手段1313は、例えば、音素アクセントパタン「/0/2 0 0 1 0 0 1 0 0/0/」を取得する。つまり、変化情報取得手段1313は、音素「ah」の音素アクセント強度「62.717609」が最も大きなアクセント強度であるので、音素「ah」に対する順位の情報として最大数「2」を付与する。また、変化情報取得手段1313は、音素「er」の音素アクセント強度「62.379860」が2番目以降に大きなアクセント強度であるので、音素「er」に対する順位の情報として「1」を付与する。また、変化情報取得手段1313は、音素「ae」の音素アクセント強度「51.971569」が2番目以降に大きなアクセント強度であるので、単語/up/に対する順位の情報として「1」を付与する。さらに、変化情報取得手段1313は、アクセント強度が/0.000000/の無音区間または子音に対して、順位の情報「0」を付与する。以上により、変化情報取得手段1313は、音素アクセントパタン「/0/2 0 0 1 0 0 1 0 0/0/」を取得する。
なお、第一の変化情報取得方法は、文章の評定に適している。文章の課題では、アクセントの強い単語から弱い単語まで、全て正しいアクセントで発声した場合に良い発音として評価する。そのた、全ての単語アクセント強度の大小(強弱)関係を見る必要がある。第一の変化情報取得方法のように教師音声のアクセント強度通りのアクセントパタンで評定すれば、それを見ることができる。また、第二の変化情報取得方法は、単語の評定に適している。単語の課題では、1番目(もしくは数番目程度まで)のアクセント強度(最大強度)を持つべき音素が正しいアクセント(最大強度)となっているかどうかを評価する。第二の変化情報取得方法のように1番目のアクセント強度(最大強度)を持つ音素のみが大きなアクセントパタン値となり、以外はフラットなアクセントパタン値となるアクセントパタンで評定すれば、それを評価することができる。
評定部132は、入力変化情報と教師変化情報とを用いて、入力音声情報の評定を行い、スコアを取得する。評定部132は、通常、入力変化情報と教師変化情報との差異に関する情報(類似度合いに関する情報と言っても良い)を、スコアとして取得する。例えば、評定部132は、入力変化情報と教師変化情報との順位相関係数を、スコアとして取得する。順位相関係数は、例えば、スピアマンの順位相関係数である。スピアマンの順位相関係数は公知技術であるので、詳細な説明は省略する。
なお、評定部132がスピアマンの順位相関係数を用いて、スコアを算出する処理の例は、以下である。例えば、教師変化情報(教師単語アクセント順位)をx={x 1 ,x 2 ,・・・,x N }とし、xの中にタイ(同順位)の箇所がn x あり、i箇所目のタイの個数がt i (i=1,2,・・・,n x )として、入力変化情報(入力単語アクセント順位)をy={y 1 ,y 2 ,・・・,y N }とし、yの中にタイ(同順位)の箇所がn y あり、j箇所目のタイの個数がt j (j=1,2,・・・,n y )とする場合、評定部132は、スピアマンの順位相関係数を数式1により算出する。順位相関係数からアクセント評定スコアを数式4により算出する。この場合、評定スコアは1.0、つまり満点となる。
順位相関係数は、スピアマンの順位相関係数以外の順位相関係数(例えば、ケンドールの順位相関係数)でも良い。なお、順位相関係数は−1から1までの値域となる。そして、評定部132が取得するスコアは、例えば、正の順位相関係数(0.0から1.0)とし、0以下の場合は0.0とする。
なお、評定部132は、例えば、教師音声情報の単語アクセントパタンと入力音声情報の単語アクセント強度から文章のスコアを算出する。このスコアは、文章のアクセントスコアである、と言える。また、同様に、評定部132は、例えば、音素アクセントパタンと音素アクセント強度を単語ごとに分けて、単語ごとののスコアを算出する。このスコアは、単語のアクセントスコアである、と言える。
出力部14は、評定部132が取得したスコアを出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
格納部11、教師変化情報格納部111は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
処理部13、取得部131、評定部132、分割手段1311、特徴量取得手段1312、変化情報取得手段1313は、通常、MPUやメモリ等から実現され得る。処理部13の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部14は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部14は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声評定装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS201)受付部12は、入力音声情報を受け付けたか否かを判断する。入力音声情報を受け付けた場合はステップS202に行き、入力音声情報を受け付けない場合はステップS201に戻る。
(ステップS202)取得部131は、ステップS201で受け付けられた音声情報の変化情報を取得する。変化情報取得処理について、図3フローチャートを用いて説明する。なお、ここでは、ステップS201で受け付けられた入力音声情報の入力変化情報を取得する。また、例えば、取得部131は、文章の入力音声情報について、文章の入力変化情報と、入力音声情報を構成する2以上の各単語の入力変化情報とを取得する、とする。
(ステップS203)評定部132は、ステップS201で受け付けられた入力音声情報に対応する変化情報であり、文章の教師変化情報を教師変化情報格納部111から取得する。
(ステップS204)評定部132は、ステップS202で取得された文章の入力変化情報と、ステップS203で取得した文章の教師変化情報とを用いて、スコアを取得する。
(ステップS205)出力部14は、ステップS204で取得されたスコアを出力する。このスコアは、文章の入力音声情報の全体のスコアである。
(ステップS206)評定部132は、カウンタiに1を代入する。
(ステップS207)評定部132は、ステップS201で受け付けられた入力音声情報の中に、i番目の単語の音声情報が存在するか否かを判断する。i番目の単語の音声情報が存在すればステップS208に行き、i番目の単語の音声情報が存在しなければステップS201に戻る。なお、i番目の単語の音声情報が存在するか否かは、入力音声情報に対応する文章の中に、i番目の単語が存在するか否かと同意義である。つまり、ステップS206からステップS212のループにおいて、実質的に単語ごとにスコアを出力する処理が行えれば良く、i番目の単語が存在するか否かの判断に使用する情報は問わない。
(ステップS208)評定部132は、ステップS202で取得されていた入力変化情報のうちの、i番目の単語の入力変化情報を取得する。
(ステップS209)評定部132は、i番目の単語の教師変化情報を教師変化情報格納部111から取得する。
(ステップS210)評定部132は、ステップS208で取得したi番目の単語の入力変化情報と、ステップS209で取得したi番目の単語の教師変化情報とを用いて、スコアを取得する。このスコアは、入力音声情報のうちのi番目の単語の音声のスコアである。
(ステップS211)出力部14は、ステップS210で取得されたスコアを出力する。このスコアは、入力音声情報のi番目の単語のスコアである。
(ステップS212)評定部132は、カウンタiを1、インクリメントする。ステップS207に戻る。
なお、図2のフローチャートにおいて、評定部132は、入力音声情報の文章のスコアと2以上の単語のスコアとを用いて、代表スコアを算出しても良い。そして、出力部14は、この代表スコアを出力しても良い。なお、代表スコアは、通常、文章のスコアと2以上の単語のスコアとをパラメータとする増加関数である。代表スコアは、例えば、文章のスコアと2以上の単語のスコアの平均値、中央値、最大値等である。
また、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、ステップS202の入力変化情報取得処理の例について、図3フローチャートを用いて説明する。
(ステップS301)取得部131の分割手段1311は、入力音声情報を2以上の音素に分割する。通常、分割手段1311は、入力音声情報から、音素ごとの区間情報を取得する。
(ステップS302)取得部131の特徴量取得手段1312は、カウンタiに1を代入する。
(ステップS303)特徴量取得手段1312は、ステップS301で分割した2以上の音素の中で、i番目の音素が存在するか否かを判断する。i番目の音素が存在する場合はステップS304に行き、i番目の音素が存在しない場合はステップS310に行く。
(ステップS304)特徴量取得手段1312は、カウンタjに1を代入する。
(ステップS305)特徴量取得手段1312は、i番目の音素の中で、j番目のフレームが存在するか否かを判断する。j番目のフレームが存在する場合はステップS306に行き、j番目のフレームが存在しない場合はステップS308に行く。
(ステップS306)特徴量取得手段1312は、j番目のフレームの特徴量を取得する。特徴量は、例えば、アクセント強度である。
(ステップS307)特徴量取得手段1312は、カウンタjを1、インクリメントする。ステップS305に戻る。
(ステップS308)特徴量取得手段1312は、ステップS306で取得した2以上の音素の特徴量から、j番目の音素の代表特徴量を取得する。
(ステップS309)特徴量取得手段1312は、カウンタiを1、インクリメントする。ステップS303に戻る。
(ステップS310)取得部131の変化情報取得手段1313は、カウンタkに1を代入する。
(ステップS311)変化情報取得手段1313は、k番目の単語が存在するか否かを判断する。k番目の単語が存在する場合はステップS312に行き、k番目の単語が存在しない場合はステップS316に行く。
(ステップS312)変化情報取得手段1313は、k番目の単語内の2以上の音素の代表特徴量を音素の並び順に取得する。
(ステップS313)変化情報取得手段1313は、ステップS312で取得した2以上の音素の代表特徴量を用いて、k番目の単語の変化情報を取得する。
(ステップS314)特徴量取得手段1312は、ステップS312で取得された2以上の音素の代表特徴量を用いて、k番目の単語の代表特徴量を取得する。k番目の単語の代表特徴量は、通常、2以上の音素の代表特徴量を代表する特徴量である。
(ステップS315)変化情報取得手段1313は、カウンタkを1、インクリメントする。ステップS311に戻る。
(ステップS316)変化情報取得手段1313は、ステップS314で取得された2以上の単語の代表特徴量を用いて、文章の変化情報を取得する。上位処理にリターンする。なお、文章の変化情報とは、文章である音声情報の入力変化情報である。
以下、本実施の形態における音声評定装置1の具体的な動作について説明する。
(具体例1)
今、教師変化情報格納部111には、図4に示す教師変化情報管理表が格納されている、とする。教師変化情報管理表は、文章「Alice looked up.」の教師音声情報の全体(文章)の教師変化情報と、文章「Alice looked up.」を構成する各単語「Alice」、「looked」、および「up」に対応する教師変化情報とが格納されている。
かかる状況において、ユーザが、音声評定装置1に対して、英語の文章「Alice looked up.」を読み上げた、とする。すると、音声評定装置1の受付部12は、文章「Alice looked up.」の音声情報である、入力音声情報を受け付ける。
次に、分割手段1311は、入力音声情報を2以上の単語に分割する。つまり、分割手段1311は、入力音声情報を構成する音素ごとの区間情報を、フォースドアライメント等を用いて、取得する。
次に、特徴量取得手段1312は、音素ごとに、音素の並び順に、各音素が有する2以上の各フレームの特徴量を取得する。ここでは、特徴量は、例えば、アクセント強度である、とする。そして、特徴量取得手段1312は、音素ごとに、2以上のフレームの特徴量から、代表特徴量(例えば、最大値)を取得する。そして、この代表特徴量が、各音素の特徴量である。
次に、変化情報取得手段1313は、単語ごとに、当該単語内の2以上の各音素の特徴量(代表特徴量)を音素の並び順に取得する。つまり、まず、変化情報取得手段1313は、単語「Alice」に対応する音素トランスクリプション「/ae l ax s/」に対して、特徴量(音素アクセント強度)の並び「/55.148270 0.000000 60.396744 0.000000/」を得た、とする。そして、変化情報取得手段1313は、音素アクセント強度の並びから、単語「Alice」の入力変化情報「/1 0 2 0/」を得る。ここで、変化情報取得手段1313は、第二の変化情報取得方法により、入力変化情報を取得した。
同様に、変化情報取得手段1313は、単語「looked」に対応する音素トランスクリプション「l uh k t」に対して、特徴量(音素アクセント強度)の並び「0.000000 53.130833 0.000000 0.000000」を得る。そして、変化情報取得手段1313は、音素アクセント強度の並びから単語「looked」の入力変化情報「0 1 0 0」を取得する。
また、同様に、変化情報取得手段1313は、単語「up」に対応する音素トランスクリプション「ah p」に対して、特徴量(音素アクセント強度)の並び「48.609158 0.000000」を得る。そして、変化情報取得手段1313は、音素アクセント強度の並びから単語「up」の入力変化情報「1 0」を取得する。
次に、変化情報取得手段1313は、取得された2以上の単語の代表特徴量を用いて、文章の入力変化情報を取得する。つまり、変化情報取得手段1313は、単語トランスクリプション「/sil/alice/sil/looked/sil/up/sil/」を構成する各単語の特徴量の並びである単語アクセント強度「/0.000000/60.396744/0.000000/53.130833/0.000000/48.609158/0.000000/」から、第一の変化情報取得方法により、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。この単語アクセントパタンは、入力変化情報の一例である。
次に、評定部132は、受け付けられた入力音声情報(「Alice looked up.」に対応する音声情報)に対応する変化情報であり、文章の教師変化情報「/0/3/0/2/0/1/0/」を教師変化情報管理表(図4)から取得する。
次に、評定部132は、取得された文章「Alice looked up.」の入力変化情報「/0/3/0/2/0/1/0/」と、取得した文章の教師変化情報「/0/3/0/2/0/1/0/」との類似度に関する情報であるスコアを、スピアマンの順位相関係数を用いて取得する。ここで、入力変化情報「/0/3/0/2/0/1/0/」と教師変化情報「/0/3/0/2/0/1/0/」とは同じであるので、評定部132は、スコア「1」を取得する。次に、評定部132は、取得したスコア「1」を100倍し、出力する点数「100」を算出する。
次に、出力部14は、評定部132が取得した点数「100」を出力する。かかる出力例は、図5である。図5において、点数は評定スコア501として表示されている。
次に、評定部132は、各単語の評定を行う。つまり、評定部132は、1番目の単語「Alice」の入力変化情報である音素アクセント強度の並び「/1 0 2 0/」を取得する。次に、評定部132は、「Alice」と対になる教師変化情報「/1 0 2 0/」を教師変化情報管理表(図4)から取得する。そして、評定部132は、1番目の単語の入力変化情報「/1 0 2 0/」と、取得した1番目の単語の教師変化情報「/1 0 2 0/」とを用いて、スコア「1」を取得する。そして、評定部132は、スコア「1」を100倍し、単語「Alice」の評定スコア「100」を得る。そして、出力部14は、単語「Alice」の評定スコア「100」を出力する。
以上の処理を、単語「looked」「up」に対しても行い、単語「looked」「up」の評定スコア「100」も出力される。なお、評定スコアの出力態様は問わない。
以上、本実施の形態によれば、発音された入力音声の流れを考慮した音声の評定ができるため、入力音声の適切な評定ができる。
なお、本実施の形態によれば、教師変化情報は予め用意されていた。しかし、教師変化情報も、教師音声情報から動的に生成されても良い。かかる生成には、例えば、実施の形態3で説明する生産装置3が用いられる。また、かかる場合の処理の具体例は、以下の1)から16)である。
1)教師音声情報の音素ごとの区間情報をフォースドアライメントを用いて算出する。
2)教師音声情報のフレームごとのアクセント強度を教師音声情報から算出する。
3)教師音声情報の音素ごとのアクセント強度を音素ごとの区間情報とフレームごとのアクセント強度から算出する。
4)教師音声情報の単語ごとのアクセント強度を単語内の音素ごとのアクセント強度から算出する。
5)教師音声情報の単語アクセント順位を教師音声情報の単語アクセント強度から算出する。
6)単語ごとに教師音声情報の音素アクセント順位を、教師音声情報の音素アクセント強度から算出する。
7)入力音声情報の音素ごとの区間情報を、フォースドアライメントを用いて算出する。
8)入力音声情報のフレームごとのアクセント強度を、入力音声情報から算出する。
9)入力音声情報の音素ごとのアクセント強度を、音素ごとの区間情報とフレームごとのアクセント強度から算出する。
10)入力音声情報の単語ごとのアクセント強度を、単語内の音素ごとのアクセント強度から算出する。
11)入力音声情報の単語アクセント順位を入力音声情報の単語アクセント強度から算出する。
12)単語ごとに入力音声情報の音素アクセント順位を、入力音声情報の音素アクセント強度から算出する。
13)文章アクセントの順位相関係数を、教師音声情報の単語アクセント順位と入力音声の単語アクセント順位から算出する。
14)単語ごとに単語アクセントの順位相関係数を、教師音声情報の音素アクセント順位と入力音声情報の音素アクセント順位から算出する。
15)文章のアクセント評定スコアを、文章アクセントの順位相関係数から求める。
16)単語ごとに単語のアクセント評定スコアを、単語アクセントの順位相関係数から求める。
また、本実施の形態において、特徴量をアクセント強度とリズム量の両方を用いて、アクセント評定とリズム評定とを行っても良い。そして、アクセント評定のスコアとリズム評定のスコアとの両方を用いて算出した代表スコアを算出し、出力しても良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、教師となる音声情報である教師音声情報を構成する2以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部を具備し、コンピュータを、2以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、前記入力音声情報が有する2以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、前記入力変化情報と前記教師変化情報とを用いて、前記入力音声情報の評定を行い、スコアを取得する評定部と、前記スコアを出力する出力部として機能させるためのプログラム、である。
また、上記プログラムにおいて、前記教師変化情報および前記入力変化情報は、前記部分音声情報の特徴量の大きさの順位に関する情報であることは好適である。
また、上記プログラムにおいて、前記取得部は、前記入力音声情報が有する2以上の各部分音声情報の特徴量を取得し、前記入力音声情報が有する2以上の部分情報のうち、評定対象外の部分音声情報を除いた、2以上の評定対象部分音声情報の2以上の特徴量の大きさの順位を取得し、当該2以上の特徴量の大きさの順位を有する入力変化情報を取得するものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記教師変化情報が有する情報であり、2以上の評定対象部分音声情報の特徴量の大きさの順位に関する情報が同一の情報である場合、前記取得部は、前記入力変化情報が有する情報であり、前記同一の情報に対応する位置の2つの評定対象部分音声情報の特徴量の大きさの順位が隣り合っているか否かを判断し、隣り合っていると判断した場合は、前記2つの評定対象部分音声情報の特徴量の大きさを同一の大きさと見なして、入力変化情報を取得するものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記取得部は、前記入力音声情報が有する2以上の各部分音声情報の特徴量を取得し、前記入力音声情報が有する2以上の部分情報のうち、評定対象外の部分音声情報を除いた、2以上の評定対象部分音声情報の2以上の特徴量に対して、最も大きい特徴量に対応する評定対象部分音声情報と他の評定対象部分音声情報とを区別する情報である入力変化情報を取得するものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記順位に関する情報は、前記教師音声情報または前記入力音声情報の2以上の各部分音声情報の特徴量の大きさの順位に関する並びの情報であるアクセントパタンであるものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記入力音声情報は、文章の音声情報であり、前記部分音声情報は、文章を構成する単語の音声情報であるものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記入力音声情報は、単語の音声情報であり、前記部分音声情報は、単語を構成する音素の音声情報であるものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記部分音声情報の特徴量は、アクセントの強度に関する情報であるアクセント強度であるものとして、コンピュータを機能させるプログラムであることは好適である。
また、上記プログラムにおいて、前記部分音声情報の特徴量は、音声情報の長さに関する情報であるリズム量であるものとして、コンピュータを機能させるプログラムであることは好適である。
(実施の形態2)
本実施の形態において、実施の形態1で行った評定に加えて、入力音声情報に対して発音評定を行い、実施の形態1で行った評定結果と発音評定結果とを用いて、最終的なスコアを算出する音声評定装置について説明する。なお、実施の形態1で行った評定は、例えば、アクセント評定、リズム評定である。つまり、本実施の形態において、アクセント評定、リズム評定、発音評定のうちの2以上の評定を行う音声評定装置について説明する。
図6は、本実施の形態における音声評定装置2のブロック図である。
音声評定装置2は、格納部11、受付部12、処理部23、出力部24を備える。
処理部23は、取得部131、評定部132、第二評定部231、算出部232を備える。
処理部23は、各種の処理を行う。各種の処理とは、例えば、取得部131、評定部132、第二評定部231、算出部232等が行う処理である。
第二評定部231は、入力音声情報に対する発音の評定を行い、第二スコアを取得する。第二スコアは、発音評定のスコアである。第二評定部231は、例えば、特許第4859125号、特許第4962930号、特許第5007401号等に記載されている発音評定装置等が行う発音評定と同様の処理を行い、発音の良し悪しの評価を示す第二スコアを得る。なお、格納部11には、教師音声情報が格納されている、とする。また、格納部11には、通常、1以上の音素毎の音響モデルである教師データを1以上格納されている。さらに、第二評定部231が入力音声情報の発音の良し悪しを評価し、第二スコアを取得するアルゴリズムは問わない。なお、第二スコアを得る発音評定のアルゴリズムは公知技術であるので、詳細な説明を省略する。
算出部232は、評定部132が取得したスコアと第二評定部231が取得した第二スコアとを用いて、代表的なスコアである代表スコアを算出する。代表スコアは、例えば、スコアと第二スコアとの平均値である。代表スコアは、例えば、スコアと第二スコアとの加重平均の値である。また、ここで、評定部132が取得したスコアは、例えば、文章のスコアである。ただし、ここでの評定部132が取得したスコアは、例えば、文章のスコアと1以上の単語のスコアでも良い。また、ここでの評定部132が取得したスコアは、例えば、1以上の単語のスコアでも良い。
出力部24は、算出部232が算出した代表スコアを出力する。出力部24は、スコアまたは第二スコアをも出力しても良い。
処理部23、第二評定部231、算出部232は、通常、MPUやメモリ等から実現され得る。処理部23等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部24は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部24は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声評定装置2の動作について、図7のフローチャートを用いて説明する。図7のフローチャートにおいて、図2のフローチャートと同一のステップについて説明を省略する。
(ステップS701)第二評定部231は、ステップS201で受け付けられた入力音声情報に対する発音の評定を行い、第二スコアを取得する。
(ステップS702)算出部232は、評定部132が取得したスコアと、ステップS701で取得された第二スコアとを用いて、代表的なスコアである代表スコアを算出する。
(ステップS703)出力部24は、ステップS702で算出した算出部232が算出した代表スコアを出力する。ステップS201に戻る。
なお、図7のフローチャートにおいて、代表スコアのみが出力されても良い。つまり、実施の形態1で算出されたスコアは出力されなくても良い。
また、図7のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以上、本実施の形態によれば、発音された入力音声の多角的な評定ができるため、入力音声の適切な評定ができる。具体的には、本実施の形態によれば、発音された入力音声に対して、例えば、アクセントの評価および発音の評価ができる。
なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、教師となる音声情報である教師音声情報を構成する2以上の各部分音声情報の特徴量の変化に関する教師変化情報が格納される教師変化情報格納部を具備し、コンピュータを、2以上の部分音声を有する音声情報である入力音声情報を受け付ける受付部と、前記入力音声情報が有する2以上の各部分音声情報の特徴量の変化に関する入力変化情報を取得する取得部と、前記入力変化情報と前記教師変化情報とを用いて、前記入力音声情報の評定を行い、スコアを取得する評定部と、前記スコアを出力する出力部として機能させるためのプログラム、である。
また、上記プログラムにおいて、コンピュータを、前記入力音声情報に対する発音の評定を行い、第二スコアを取得する第二評定部と、前記評定部が取得したスコアと前記第二評定部が取得した第二スコアとを用いて、代表的なスコアである代表スコアを算出する算出部としてさらに機能させ、前記出力部は、前記代表スコアを出力するものとして、コンピュータを機能させるプログラムであることは好適である。
(実施の形態3)
本実施の形態において、教師変化情報格納部111の教師変化情報を自動生成する生産装置について説明する。
図8は、本実施の形態における生産装置3のブロック図である。
生産装置3は、教師変化情報格納部111、受付部12、取得部131、蓄積部31を備える。取得部131は、分割手段1311、特徴量取得手段1312、変化情報取得手段1313を備える。
なお、ここで受付部12が受け付ける音声情報は、教師音声情報である。また、ここでの取得部131の処理対象は、受付部12が受け付けた教師音声情報である。
分割手段1311は、受付部12が受け付けた教師音声情報を2以上の部分音声情報に分割する。
特徴量取得手段1312は、2以上の部分音声情報が有する2以上の各評定対象部分音声情報から2以上の特徴量を取得する。
変化情報取得手段1313は、2以上の特徴量を用いて、教師変化情報を取得する。
蓄積部31は、教師変化情報を記録媒体に蓄積する。ここでの記録媒体は、通常、教師変化情報格納部111である。蓄積部31は、例えば、教師音声情報に対応付けて、教師変化情報を記録媒体に蓄積しても良い。また、蓄積部31は、例えば、教師音声情報から取得した単語トランスクリプションに対応付けて、教師変化情報を記録媒体に蓄積しても良い。また、蓄積部31は、教師音声情報を構成する単語の音素トランスクリプションに対応付けて、単語の教師変化情報を記録媒体に蓄積しても良い。
蓄積部31は、通常、MPUやメモリ等から実現され得る。蓄積部31の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、生産装置3の動作について、図9のフローチャートを用いて説明する。図9のフローチャートにおいて、図3のフローチャートと同一のステップについて説明を省略する。
(ステップS901)受付部12は、教師音声情報を受け付けたか否かを判断する。教師音声情報を受け付けた場合はステップS301に行き、教師音声情報を受け付けない場合はステップS901に戻る。
(ステップS902)蓄積部31は、ステップS316で取得された文章の変化情報を記録媒体に蓄積する。ここでの変化情報は、文章の教師変化情報である。
(ステップS903)蓄積部31は、ステップS313で取得された1以上の各単語の変化情報を記録媒体に蓄積する。処理を終了する。なお、ここでの変化情報は、単語の教師変化情報である。
以下、本実施の形態における生産装置3の具体的な動作について説明する。生産装置3の具体的な動作例は、以下の1)から6)の動作である。
1)教師音声情報の音素ごとの区間情報を、フォースドアライメントを用いて算出する。
2)教師音声情報のフレームごとのアクセント強度を教師音声データから算出する。
3)教師音声情報の音素ごとのアクセント強度を音素ごとの区間情報とフレームごとのアクセント強度から算出する。
4)教師音声情報の単語ごとのアクセント強度を単語内の音素ごとのアクセント強度から算出する。
5)教師音声情報の単語アクセントパタンを単語ごとのアクセント強度から生成する。
6)教師音声情報の音素アクセントパタンを音素ごとのアクセント強度から生成する。
上記の動作のさらなる具体例を、以下に説明する。今、模範的な発音をする教師が、文章「Alice looked up.」を読み上げた、とする。そして、生産装置3の受付部12は、文章「Alice looked up.」の音声データである教師音声情報を受け付ける。
次に、分割手段1311は、教師音声情報を2以上の単語に分割する。つまり、分割手段1311は、教師音声情報を構成する音素ごとの区間情報を、フォースドアライメント等を用いて、取得する。
次に、特徴量取得手段1312は、音素ごとに、音素の並び順に、各音素が有する2以上の各フレームの特徴量を取得する。ここでは、特徴量は、アクセント強度である、とする。そして、特徴量取得手段1312は、音素ごとに、2以上のフレームの特徴量から、代表特徴量(例えば、最大値)を取得する。
次に、変化情報取得手段1313は、単語ごとに、当該単語内の2以上の各音素の特徴量(代表特徴量)を音素の並び順に取得する。つまり、まず、変化情報取得手段1313は、単語「Alice」に対応する音素トランスクリプション「/ae l ax s/」に対して、特徴量(音素アクセント強度)の並び「/50.041230 0.000000 65.123454 0.000000/」を得た、とする。そして、変化情報取得手段1313は、音素アクセント強度の並びから、単語「Alice」の教師変化情報「/1 0 2 0/」を得る。ここで、変化情報取得手段1313は、第二の変化情報取得方法により、教師変化情報を取得した。
同様に、変化情報取得手段1313は、単語「looked」および単語「up」に対応する音素トランスクリプションに対して、特徴量(音素アクセント強度)の並びを得る。そして、変化情報取得手段1313は、第二の変化情報取得方法により、単語「looked」および単語「up」の教師変化情報を取得する。
次に、変化情報取得手段1313は、取得された2以上の単語の代表特徴量を用いて、文章の入力変化情報を取得する。つまり、変化情報取得手段1313は、単語トランスクリプション「/sil/alice/sil/looked/sil/up/sil/」を構成する各単語の特徴量の並びである単語アクセント強度「/0.000000/65.123454/0.000000/54.012354/0.000000/45.987661/0.000000/」から、第一の変化情報取得方法により、単語アクセントパタン「/0/3/0/2/0/1/0/」を取得する。この単語アクセントパタンは、教師変化情報の一例である。
そして、蓄積部31は、取得された文章の教師変化情報「/0/3/0/2/0/1/0/」を記録媒体に蓄積する。ここで、蓄積部31は、例えば、単語(音素)トランスクリプション「Alice looked up.」と文章の教師変化情報とを対にして蓄積する、とする。
また、蓄積部31は、取得された単語の教師変化情報を記録媒体に蓄積する。ここで、蓄積部31は、教師音声情報の単語(音素)トランスクリプション「Alice」等と単語の教師変化情報とを対にして蓄積する、とする。
以上の処理により、生産装置3は、図4に示す教師変化情報管理表を得る。
以上、本実施の形態によれば、発音された入力音声の流れを考慮した音声の評定をするための教師データを自動生成できる。
なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、教師音声情報を受け付ける受付部と、前記教師音声情報を2以上の部分音声情報に分割する分割手段と、前記2以上の部分音声情報が有する、2以上の各評定対象部分音声情報から2以上の特徴量を取得する特徴量取得手段と、前記2以上の特徴量を用いて、教師変化情報を取得する変化情報取得手段と、前記教師変化情報を記録媒体に蓄積する蓄積部として、機能させるためのプログラム、である。
また、図10は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声評定装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図10は、このコンピュータシステム300の概観図であり、図11は、システム300のブロック図である。
図10において、コンピュータシステム300は、CD−ROMドライブ3012を含むコンピュータ301と、キーボード302と、マウス303と、モニタ304と、マイク305とを含む。
図11において、コンピュータ301は、CD−ROMドライブ3012と、MPU3013と、MPU3013と、バス3014と、ROM3015と、RAM3016と、ハードディスク3017とを含む。ROM3015は、ブートアッププログラム等のプログラムを記憶している。RAM3016は、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供する。ハードディスク3017は、通常、アプリケーションプログラム、システムプログラム、及びデータを記憶している。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の音声評定装置1等の機能を実行させるプログラムは、CD−ROM3101に記憶されて、CD−ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。また、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の音声評定装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切なモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。